Well-Architected Framework: 信頼性の柱
障害による中断を防ぎ、迅速に復旧するインフラを構成するための「信頼性」の設計原則を整理します。
学習順Step 7 / 61サービスAWS基礎試験ドメイン弾力性
信頼性 (Reliability) とは
Well-Architected Framework における「信頼性」の柱は、ワークロードが意図した機能を、期待されるタイミングで正確かつ一貫して実行する能力を指します。これには、障害による中断や停止を防ぐこと、そして障害が発生した際にその影響を最小限に抑え、迅速に復旧する能力が含まれます。
設計原則(設計事項)
信頼性を高めるためには、以下の原則に従ってアーキテクチャを設計します。
- 障害復旧を自動化する: システムをモニタリングし、設定したしきい値を超えた場合に自動で復旧プロセス(フェイルオーバーや再起動など)がトリガーされるようにします。
- 復旧手順をテストする: 実際の障害をシミュレーションし、復旧手順が正しく機能するかを定期的に検証します。
- 水平方向にスケールしてワークロード全体の可用性を高める: 1つの大きなリソース(垂直スケーリング)に依存するのではなく、複数の小さなリソース(水平スケーリング)にリクエストを分散させることで、単一障害点(SPOF)を排除します。
- キャパシティを推測することをやめる: オンプレミス環境のようにリソースの最大需要を推測して事前確保するのではなく、需要の変化に応じてリソースを自動的に追加・削除(Auto Scaling)します。
- オートメーションで変更を管理する: インフラへの変更は自動化を利用して行い、人為的なミスを防ぎます。
信頼性の対応領域と主要サービス
信頼性の確保は、大きく以下の3つの対応領域に分けられます。
-
基盤 (Foundations)
- システムを支えるネットワークやコンピューティングリソースの基盤を確固たるものにします。
- 主要サービス: AWS IAM, Amazon VPC, AWS CloudFormation など。制約(サービスクォータ)を把握し、ネットワークトポロジを適切に設計します。
-
変更管理 (Change Management)
- システムへの変更(需要の増減やデプロイ)を監視し、安全に管理します。
- 主要サービス: AWS Auto Scaling, AWS CloudTrail, AWS Config など。需要の変化に対するスケーリングや、設定変更の追跡を行います。
-
障害管理 (Failure Management)
- 障害を検知し、影響を軽減し、復旧させます。
- 主要サービス: Amazon CloudWatch, Elastic Load Balancing (ELB) など。メトリクスを監視して異常を検知し、トラフィックを正常なリソースへルーティングします。
試験では「オンプレミスからAWSへの移行において、信頼性を高めるにはどうすべきか」といったシナリオで、「推測をやめてAuto Scalingを導入する」「マルチAZ構成にする」などの選択肢が正解となるケースが多く見られます。
重要ポイント
- ▸障害による影響を軽減し、システムが期待通りに動作し続ける能力
- ▸障害復旧を自動化し、復旧手順を定期的にテストする
- ▸需要の変化に応じて水平方向にスケール(スケールアウト)して可用性を確保する
- ▸キャパシティの推測をやめ、モニタリングと自動化を組み合わせる
- ▸基盤、変更管理、障害管理の3つの領域で信頼性を高める
このトピックの学習を完了しますか?
完了状態はいつでも切り替えられます
この試験ドメイン内で次の学習に進む
同じサービスの関連トピック
AWS の基本概念 に関連するトピックを続けて確認できます。