信頼性の非機能要件とDR・BCP

高可用性の考え方、RTO・RPO、耐障害性と復元可能性、バックアップと事業継続計画（BCP）を整理します。

学習順Step 57 / 61サービスAWS基礎試験ドメイン弾力性

高可用性（HA）をどう捉えるか

クラウド上では、単一コンポーネントの障害が起きてもサービスを継続できるようにすることが「高可用性」の中心です。ダウンタイムを限りなくゼロに近づけるアーキテクチャ目標として語られることが多く、SAA では「どのレイヤーで冗長を取るか」が選択肢とセットで出ます。

AWS のサービスは大きく二つに分けて覚えると混乱しにくいです。

サービス側で高可用が組み込まれているもの … 例: S3（耐久性モデル）、Route 53、Lambda、SQS など。データプレーンの冗長を意識しすぎなくてよいケースが多いです。
ユーザーがマルチ AZ・ELB・Auto Scaling などで高可用を“組み立てる”もの … 例: EC2 上のアプリ、RDS／ELB／Direct Connect など。単一 AZ・単一インスタンスのままでは SPOF になりやすい、という文脈で試験に出ます。

信頼性（Reliability）は、障害による中断を減らし、復旧の影響を抑えるための柱です。試験の長文シナリオでは、次のような設計の方向性が一文でまとめられていることがあります（用語を拾えるようにしておくとよいです）。

これらは「単語暗記」ではなく、どの選択肢がこの柱に最も沿うかを選ぶ問題に変換されます。

障害や災害を想定した設計では、次の指標が議論の土台になります。

RTO（Recovery Time Objective） … 障害発生からどれくらいの時間内に業務を再開するかの目標。スタンバイへのフェイルオーバー時間、DNS 切り替え、バックアップからのリストアに要する時間の上限イメージです。
RPO（Recovery Point Objective） … どの時点までのデータで復旧すればよいかの目標。バックアップ間隔、非同期レプリカのラグ、同期レプリケーションの有無とセットで決まります。RPO を短くするほど、同期レプリケーション・頻繁なスナップショット・マルチ AZ など、コストと複雑さが増えがちです。

試験では、文章の許容損失と許容ダウンタイムを読み取り、次のような対応を選べるとよいです。

要件の読み取り	検討しやすい施策の方向
RPO を極小にしたい（データ損失をほぼ不可）	マルチ AZ の同期スタンバイ、適切なレプリケーション設計、ミッションクリティカルならさらに厳密な戦略
RTO を短くしたい（すぐ業務再開）	スタンバイと自動フェイルオーバー、ヘルスチェック付き DNS、温／熱スタンバイ
長期保管だが即時復旧は不要	スナップショット・クロスリージョンコピー、コールドスタンバイ

代表的な考え方です（詳細は ELB・RDS・S3 の各トピックへ）。

可用性を上げるほど、コスト・構成の複雑さ・運用負荷は増えやすいです。すべてをマルチリージョン・アクティブ・アクティブにするのは強力ですが、データ整合性・運用・料金のすべてが重くなります。

「S3 は高耐久だからアプリも自動で高可用」 … 誤り。S3 のオブジェクト耐久性と、EC2 アプリの可用性は別問題です。
「バックアップさえ取れば RPO は常にゼロ」 … 誤り。スナップショット間隔とトランザクションログの有無で RPO は決まります（RDS の PITR は別トピック）。
「RTO だけ短くすればよい」 … シナリオによっては RPO（データの鮮度） の方が致命的、という問題が出ます。

ビジネス要件に合わせて、どのレイヤーまで冗長にするかを決めるのが設計の本質です。

このトピックの学習を完了しますか？

完了状態はいつでも切り替えられます

この試験ドメイン内の前

← S3オブジェクトモデル

S3のバケット・オブジェクト・キー

この試験ドメイン内の次

マルチAZとSPOF →

マルチAZと単一障害点（SPOF）の排除

AWS の基本概念に関連するトピックを続けて確認できます。

利用方法

AWSの利用方法（コンソール / CLI / SDK）

リージョン

AWSリージョンとは？

アベイラビリティゾーン（AZ）とは？

エッジ

エッジロケーションとリージョンエッジキャッシュ