クイズの説明
Step 4「ポストモーテム文化を確立しよう」の理解度を確認します。ブレームレス文化、ポストモーテム、アクションアイテム管理、インシデントメトリクスについて問います。
合格ライン: 80%(5問中4問正解)
問題
Q1. ブレームレス文化の本質
ブレームレス文化について最も正しい説明はどれですか?
- A. 障害を起こしても誰も責任を取らなくてよいという文化
- B. 個人を責めるのではなく、システムやプロセスの改善に焦点を当てる文化
- C. 障害の原因を追及しないという文化
- D. 障害報告を簡略化し、負担を減らすための文化
答えを見る
正解: B
ブレームレス文化は「責任放棄」(A)ではなく、個人を責める代わりにシステムの改善に焦点を当てる文化です。原因追及は徹底的に行います(Cは誤り)が、「誰がミスしたか」ではなく「なぜそのミスが起きる仕組みだったか」を問います。報告を簡略化する(D)のではなく、むしろ詳細な情報共有を促進します。ブレームレスにすることで、隠蔽が減り、より正確で詳細な障害情報が集まります。
Q2. 5 Whysの適用
本番環境で設定ミスによる障害が発生しました。5 Whys分析の最終的な根本原因として最も適切なものはどれですか?
- A. 設定変更を実施した担当者の注意力不足
- B. 設定変更の事前レビュー体制が不十分だったこと
- C. 設定変更を検証する自動テストがCIパイプラインに組み込まれていなかったこと
- D. 本番環境へのアクセス権限の管理が甘かったこと
答えを見る
正解: C
5 Whysの目的は「人」ではなく「システム」の問題に到達することです。担当者の注意力不足(A)は個人への帰責であり、ブレームレスに反します。レビュー体制(B)やアクセス権限(D)も有効な対策ですが、最も根本的かつシステム的な対策は「自動テストによる検証」です。人間のレビューは見落としが避けられませんが、自動テストは一貫性を持って検証できます。「ミスを防ぐ」のではなく「ミスを検知する仕組み」を作ることがSREの考え方です。
Q3. アクションアイテムの分類
ポストモーテムのアクションアイテムを「防止・検知・緩和」の3つに分類する場合、「カナリアリリースの導入」はどれに分類されますか?
- A. 防止(Prevent)
- B. 検知(Detect)
- C. 緩和(Mitigate)
- D. 防止と検知の両方
答えを見る
正解: C
カナリアリリースは「障害の発生を防ぐ」のではなく、「障害が発生した場合の影響範囲を最小化する」仕組みです。全ユーザーではなく一部のユーザー(例: 5%)にのみ新バージョンを提供することで、問題があった場合の影響を限定します。防止(A)は根本原因の除去(例: バグの修正)、検知(B)はより早い発見(例: アラート追加)です。カナリアリリースは「問題が起きること自体は防げないが、影響を小さくする」ため、緩和(C)に分類されます。
Q4. MTTRの分解
MTTRが4時間のインシデントがあり、内訳はMTTD 5分、MTTA 10分、MTTI 3時間、MTTF 45分でした。最も効果的な改善施策はどれですか?
- A. アラート閾値の最適化でMTTDを短縮する
- B. オンコール応答時間の改善でMTTAを短縮する
- C. ランブック整備と調査手順の標準化でMTTIを短縮する
- D. ロールバック自動化でMTTFを短縮する
答えを見る
正解: C
MTTR = MTTD(5分) + MTTA(10分) + MTTI(3時間) + MTTF(45分)。最大のボトルネックは明らかにMTTI(調査時間: 3時間)です。ランブック整備と調査手順の標準化により、原因特定を速めることが最も大きなMTTR改善につながります。MTTD(A: 5分→改善余地小)、MTTA(B: 10分→改善余地小)、MTTF(D: 45分→一定の改善効果)はいずれもMTTIに比べて改善インパクトが小さいです。
Q5. ポストモーテムの実施タイミング
インシデント後のポストモーテム作成で最も重要なタイミングに関する原則はどれですか?
- A. 感情が落ち着くまで最低1ヶ月は待ってから実施すべき
- B. インシデント解決後72時間以内にドラフトを作成し、1週間以内にレビューを完了すべき
- C. 四半期に1回まとめて過去のインシデントのポストモーテムを作成すべき
- D. ポストモーテムはICの判断で必要と感じたときに実施すればよい
答えを見る
正解: B
ポストモーテムは「記憶が新しいうちに」作成することが重要です。1ヶ月待つ(A)と詳細を忘れ、不正確なドキュメントになります。四半期まとめ(C)も同様に記憶の劣化が問題です。ICの判断(D)に任せると、トリガー条件に該当するインシデントでも作成されないリスクがあります。72時間以内のドラフト作成と1週間以内のレビュー完了(B)が、品質と実行可能性のバランスが最も良い基準です。
結果
合格(4問以上正解)
Step 4の内容をよく理解しています。ブレームレス文化、ポストモーテムプロセス、アクションアイテム管理、インシデントメトリクスの要点を身につけました。次のStep 5「SREチーム採用・育成計画を策定しよう」に進みましょう。
不合格(3問以下正解)
Step 4の内容を復習しましょう。特に以下のポイントを重点的に確認してください:
- ブレームレス — 「人」ではなく「システム」の問題に焦点
- 5 Whys — 個人の注意力ではなく、自動化・仕組みに到達する
- MTTR分解 — 最大のボトルネックから改善する
推定所要時間: 30分