QUIZ 30分

クイズの説明

Step 3「オンコール体制を設計しよう」の理解度を確認します。オンコール設計、エスカレーション、ランブック、健全性管理について問います。

合格ライン: 80%(5問中4問正解)


問題

Q1. オンコールチームの最小サイズ

持続可能なオンコール体制に最低限必要なチームサイズとして最も適切なものはどれですか?

  • A. 3名(Primary/Secondary + バックアップ)
  • B. 6名(四半期あたりオンコール25%以下を維持)
  • C. 10名(常に2名の余裕を確保)
  • D. チームサイズに最低限はなく、ツールで補える
答えを見る

正解: B

SREの原則では、オンコール担当は四半期あたり最大25%(約2週間に1回)を超えてはなりません。Primary/Secondaryの2名体制で週次交代する場合、最低6名が必要です(8名が理想的)。3名(A)では月10日以上のオンコールとなり燃え尽きが不可避です。10名(C)は理想的ですが「最低限」ではありません。ツールだけで補える(D)という考えは誤りで、人間の判断が必要な場面は必ず存在します。


Q2. インシデントコマンダーの役割

Incident Commander(IC)の最も重要な役割はどれですか?

  • A. 技術的な原因を自ら調査し、修正コードを書く
  • B. 対応全体の指揮を取り、リソース配分と意思決定を行う
  • C. 経営層への報告書を作成する
  • D. アラートを最初に受け取り、トリアージする
答えを見る

正解: B

ICの役割は「指揮官」であり、自ら技術調査を行う(A)のではなく、適切な人に適切なタスクを割り当てて全体を管理します。報告書作成(C)はCommunications Leadの役割、アラートのトリアージ(D)はオンコール担当の初動です。ICは「今何が起きているか」を把握し、「次に何をすべきか」を判断し、「誰がそれをやるか」を決める司令塔です。ICは技術力よりもコミュニケーション能力と判断力が求められます。


Q3. ランブックとプレイブックの違い

ランブックとプレイブックの使い分けとして最も適切なものはどれですか?

  • A. ランブックは上級者向け、プレイブックは初心者向けの手順書である
  • B. ランブックは既知の問題に対する手順化された対応手順、プレイブックは未知の問題に対する調査・判断のガイドラインである
  • C. ランブックはSREチーム用、プレイブックは開発チーム用の文書である
  • D. ランブックは障害対応用、プレイブックはデプロイ作業用の文書である
答えを見る

正解: B

ランブックは「この手順通りに実行すれば解決する」もので、判断を必要としません。自動化の候補になります(例: DB接続プール再起動)。プレイブックは「この状況ではこのアプローチで調査・判断する」ガイドラインで、エンジニアの判断力が求められます(例: レイテンシ劣化の原因調査)。上級者/初心者の区分(A)やチーム別(C)、用途別(D)の区分は誤りです。


Q4. アラート品質の指標

オンコールアラートの品質を測る指標として最も適切なものはどれですか?

  • A. アラートの総数が多いほど、監視が充実していて品質が高い
  • B. アクション率(対応が必要だったアラート / 総アラート数)が80%以上であること
  • C. すべてのアラートがP1(最高優先度)に設定されていること
  • D. アラートの応答時間が1分以内であること
答えを見る

正解: B

アラート品質の核心は「ノイズの少なさ」です。アクション率(対応が必要だったアラート / 総アラート数)80%以上が目標です。アラート数が多い(A)のは監視の充実ではなくノイズの多さを示します。全てP1(C)は優先度の意味がなくなり、「どれが本当に緊急かわからない」状態になります。応答時間(D)は担当者のパフォーマンス指標であり、アラート自体の品質指標ではありません。


Q5. オンコール健全性の危険信号

以下の状況のうち、オンコール体制の健全性に最も深刻な問題を示すものはどれですか?

  • A. 月間のオンコールアラートが50件で、アクション率が85%
  • B. 特定の2名がインシデントの80%に対応しており、他メンバーの対応経験が少ない
  • C. MTTRが平均45分で、目標の1時間以内を達成している
  • D. 四半期に1回のゲームデイで、ランブックの不備が2件見つかった
答えを見る

正解: B

特定メンバーへの負荷集中は、最も深刻な健全性の問題です。この2名が退職・休暇・病気になった場合、組織の対応能力が崩壊します。また、他メンバーの成長機会が失われ、チーム全体のスキルが向上しません。A(アクション率85%は健全)、C(MTTR目標達成は良好)、D(ゲームデイで不備を発見するのはゲームデイの正しい成果)はいずれも問題ではなく、むしろ健全な状態を示しています。


結果

合格(4問以上正解)

Step 3の内容をよく理解しています。オンコール体制の設計、エスカレーションフロー、ランブック/プレイブック、健全性管理の要点を身につけました。次のStep 4「ポストモーテム文化を確立しよう」に進みましょう。

不合格(3問以下正解)

Step 3の内容を復習しましょう。特に以下のポイントを重点的に確認してください:

  • 持続可能性 — 最低6名のチーム、四半期25%以下の負荷
  • 役割分離 — ICは指揮に専念、技術対応はOps Leadに委任
  • アラート品質 — アクション率80%以上を目標にノイズを削減

推定所要時間: 30分