クイズの説明
Month 2「SRE組織を構築しよう」の卒業クイズです。SRE原則、SLI/SLO設計、エラーバジェットポリシー、インシデント管理プロセス、チーム構築の全領域から出題します。
合格ライン: 80%(10問中8問正解)
問題
Q1. SREの定義
「SREとは何か」を最も正確に表す説明はどれですか?
- A. 運用チームの名前を変えたもの
- B. ソフトウェアエンジニアに運用の問題を解かせたときに起きること
- C. インフラの自動化を専門とするチーム
- D. 24時間365日の監視体制
答えを見る
正解: B
Ben Treynor Sloss(GoogleのSRE創設者)の定義「SREとは、ソフトウェアエンジニアに運用の問題を解かせたときに起きること」が最も正確です。単なる名前変更(A)ではなく、エンジニアリングアプローチで運用を変革します。インフラ自動化(C)は一部であり全体ではなく、24/365監視(D)は手段の一つに過ぎません。
Q2. エラーバジェットの意思決定
SLO 99.9%のサービスで月間エラーバジェットの75%を消費済み(残り25%)。この状況で最も適切なアクションはどれですか?
- A. まだ25%残っているので、通常通りリリースを続ける
- B. エラーバジェットポリシーに従い、新機能リリースを凍結し信頼性回復に集中する
- C. SLOを99.5%に下げてバジェットを増やす
- D. アラートを一時的に無効化してバジェット消費を止める
答えを見る
正解: B
4段階エスカレーションモデルでは、バジェット残量25%以下はLevel 3(危険)であり、新機能リリース凍結のトリガーです。25%残っている(A)は危険水準です。SLOを下げる(C)のは四半期レビューで検討すべきであり、インシデントの最中に変更するべきではありません。アラート無効化(D)は問題を隠蔽するだけで、バジェット消費は止まりません。
Q3. SLIの選定
社内向けデータパイプラインの最も重要なSLIとして適切なものはどれですか?
- A. パイプラインサーバーのCPU使用率
- B. データの正確性と鮮度(処理遅延)
- C. パイプラインの稼働率(アップタイム)
- D. 処理されたデータ量(バイト数)
答えを見る
正解: B
データパイプラインの目的は「正確なデータを適時に届けること」です。データの正確性と鮮度がユーザー(データチーム)にとって最も重要です。CPU使用率(A)はインフラ指標であり直接的な品質指標ではありません。稼働率(C)はパイプラインが動いていてもデータが不正確なら意味がありません。データ量(D)はスループットの一側面ですが、品質を反映しません。
Q4. オンコール設計
6名のチームでPrimary/Secondary × 週次交代のオンコールを実施する場合、1名あたりの月間オンコール日数に最も近いのはどれですか?
- A. 約3日
- B. 約5日
- C. 約10日
- D. 約15日
答えを見る
正解: C
6名でPrimary/Secondary(2枠)の週次交代の場合:
- 1ローテーション = 3週間(6名 ÷ 2枠)
- 月間のオンコール = 約30日 ÷ 3 = 約10日/月(Primary or Secondary)
これは持続可能性の観点からやや高負荷(理想は8名以上)ですが、最低限の6名体制での計算です。
Q5. ブレームレスポストモーテム
本番デプロイで障害が発生し、原因はエンジニアAが設定ファイルのタイプミスをしたことでした。ブレームレスポストモーテムでの最も適切な根本原因の記述はどれですか?
- A. 「エンジニアAが設定ファイルにタイプミスをしたことが原因」
- B. 「デプロイパイプラインに設定ファイルの構文チェックが組み込まれておらず、タイプミスが本番に反映された」
- C. 「エンジニアAのレビューが不十分だった」
- D. 「エンジニアAの注意力不足」
答えを見る
正解: B
ブレームレスポストモーテムでは、個人(A, C, D)ではなくシステムの問題に焦点を当てます。「なぜタイプミスが本番に届いたか」→「構文チェックの仕組みがなかった」がシステムの根本原因です。人間はミスをするものであり、ミスを防ぐのではなくミスを検知する仕組みを作ることがSREの考え方です。
Q6. バーンレートアラート
バーンレートベースのアラートが「バーンレート > 10」で発報しました。SLO 99.9%の場合、この状況の意味として正しいのはどれですか?
- A. エラーバジェットが10%消費された
- B. 現在のエラー率が通常の10倍であり、このペースが続くと3日でバジェットが枯渇する
- C. 10件のインシデントが同時に発生している
- D. SLOが10%下回っている
答えを見る
正解: B
バーンレート = 実際のエラー率 / 許容エラー率。バーンレート10は通常の10倍の速度でバジェットを消費していることを意味します。30日のバジェットを10倍の速度で消費すると、30 ÷ 10 = 3日で枯渇します。バジェット消費量(A)、インシデント数(C)、SLO値(D)とは異なる指標です。
Q7. インシデントコマンダー
SEV1インシデント発生時、Incident Commander(IC)が最初に行うべきアクションはどれですか?
- A. 自ら技術的な調査を開始する
- B. 経営層に報告書を送付する
- C. インシデントチャンネルを作成し、役割をアサインし、状況を把握する
- D. 全エンジニアにアラートを送信する
答えを見る
正解: C
ICの最初のアクションは「コントロールの確立」です。インシデントチャンネルを作成し、Operations Lead、Communications Lead等の役割をアサインし、現在の状況を把握します。自ら調査(A)するのはICの役割ではなく、報告書(B)は後の話、全員にアラート(D)は混乱を招きます。ICは「何が起きているか」を把握し、「誰が何をやるか」を決める指揮官です。
Q8. SRE組織モデルの選定
以下の状況で最も適切なSRE組織モデルはどれですか?
SRE人材8名、チーム数20以上、一部のチームのサービスが特に高いSLO要件を持つ
- A. 中央集権型SRE
- B. 組み込み型SRE(全チームにSREを配置)
- C. ハイブリッド型SRE(中央チーム + クリティカルサービスに組み込み)
- D. コンサルティング型SRE
答えを見る
正解: C
8名で20チーム以上をカバーするため、全チームへの組み込み(B)は人数不足で不可能。中央集権型(A)では高SLO要件のサービスに十分な支援ができない。コンサルティング型(D)では深い専門支援が難しい。ハイブリッド型(C)なら、中央チームが共通基盤を提供しつつ、特に高いSLO要件のサービスには組み込みSREを配置でき、リソースの最適配分が可能です。
Q9. MTTRの改善
組織のMTTRの内訳がMTTD 5分、MTTA 8分、MTTI 2時間、MTTF 20分の場合、最も効果的な改善投資はどれですか?
- A. より高性能なモニタリングツールへの投資(MTTD改善)
- B. PagerDutyの設定最適化(MTTA改善)
- C. ランブック整備と調査手順の標準化(MTTI改善)
- D. 自動ロールバック機能の導入(MTTF改善)
答えを見る
正解: C
MTTR = 5分 + 8分 + 120分 + 20分 = 153分。最大のボトルネックはMTTI(調査: 120分 = 全体の78%)です。ランブック整備と調査手順の標準化で調査時間を短縮することが最もインパクトが大きい改善です。MTTD(A: 5分)やMTTA(B: 8分)の改善余地は小さく、MTTF(D: 20分)も相対的にインパクトが限定的です。
Q10. SRE導入のROI
SRE組織への年間投資2,000万円に対し、以下の効果が得られた場合のROIに最も近い値はどれですか?
- インシデント損失回避: 2,400万円
- MTTR改善による損失回避: 1,000万円
- 離職率改善による採用コスト削減: 400万円
- A. 40%
- B. 90%
- C. 190%
- D. 290%
答えを見る
正解: B
ROI = (効果合計 - 投資) / 投資 × 100%
効果合計 = 2,400 + 1,000 + 400 = 3,800万円 ROI = (3,800 - 2,000) / 2,000 × 100% = 1,800 / 2,000 × 100% = 90%
よくある間違い: 効果合計をそのままROIとする(3,800 / 2,000 = 190%)。ROIは「投資に対する純利益の割合」であり、投資額自体を差し引く必要があります。
結果
合格(8問以上正解)
おめでとうございます。Month 2「SRE組織を構築しよう」を修了しました。
SREの原則、SLI/SLO設計、エラーバジェットポリシー、オンコール体制、ポストモーテム文化、チーム構築 — SRE組織に必要なすべての要素を学び、統合した設計書を作成する力を身につけました。
「CI/CD基盤とSRE組織 — 技術と人の両方を設計できるエンジニアは稀だ。Month 3では、この組織で何を観測し、どう改善するかを学ぶ。可観測性だ」 — 田中VPoE
不合格(7問以下正解)
Month 2の内容を復習し、再度チャレンジしましょう。特に不正解だった領域のStep を重点的に復習してください。
| 問題番号 | 対応するStep |
|---|---|
| Q1 | Step 1: SRE組織のミッション定義 |
| Q2, Q3 | Step 2: エラーバジェットポリシー |
| Q4, Q6, Q7 | Step 3: オンコール体制 |
| Q5, Q9 | Step 4: ポストモーテム文化 |
| Q8 | Step 1: SRE組織モデル |
| Q10 | Step 4: インシデントメトリクス |
推定所要時間: 30分