LESSON 30分

ストーリー

田中VPoE
オンコール体制の基本を理解した。次は「インシデント発生時に何が起きるか」のフロー全体を設計する
あなた
誰に連絡して、誰が判断して、という流れですね
田中VPoE
そうだ。だが実際のインシデント対応は混沌としている。チャットが飛び交い、複数人が同時に異なる対応をし、誰が何をしているか誰もわからない。この混沌を構造化するのがエスカレーションフローだ
あなた
インシデントコマンダーのような役割も必要ですか?
田中VPoE
その通り。役割を明確にし、コミュニケーションパスを整理する。障害の最中に「誰に報告すればいいんだ?」と迷う時間はゼロにしたい

インシデント対応の役割

標準ロール

ロール責務人数
Incident Commander(IC)対応全体の指揮、判断、コミュニケーション管理1名
Operations Lead技術的な調査と対応の実行1名
Communications Leadステークホルダーへの状況報告1名
Subject Matter Expert(SME)専門領域の知見提供必要に応じて
Scribeタイムラインと対応内容の記録1名

役割の分離が重要な理由

悪い例: 1人がすべてを担当
  → 技術対応しながら報告書を書きながら上司に報告
  → すべてが中途半端になり、対応が長引く

良い例: 役割を分離
  IC: 「DBの調査はAさん、ネットワークの確認はBさん、15分後に状況共有」
  Ops Lead: 技術対応に集中
  Comms Lead: 経営層に「現在対応中、影響範囲はX、復旧見込みはY」を報告
  Scribe: タイムラインを記録(ポストモーテムの素材に)

エスカレーションフロー

時間ベースのエスカレーション

経過時間アクションエスカレーション先
0分アラート発報、オンコール担当に通知Primary On-call
5分Primary応答なしSecondary On-call
15分影響が継続SREリードに通知、ICをアサイン
30分復旧見込みなしエンジニアリングマネージャーに通知
60分重大影響が継続VPoE/CTOに通知
120分以上長期インシデント交代要員の手配、経営層への定期報告体制

重大度ベースのエスカレーション

重大度定義初動対応
SEV1(Critical)サービス全面停止、データ損失の可能性即座にIC任命、全関係者を招集
SEV2(Major)主要機能の障害、多数のユーザーに影響IC任命、対応チーム編成
SEV3(Minor)一部機能の障害、限定的な影響オンコール担当が対応
SEV4(Low)軽微な問題、回避策あり営業時間内に対応

重大度の判断基準

判断軸SEV1SEV2SEV3SEV4
ユーザー影響全ユーザー多数(>10%)一部(<10%)ごく一部
売上影響直接損失あり間接的損失軽微なし
データ損失・破損のリスク整合性の懸念なしなし
バーンレート>10>5>2>1

インシデント対応フロー

標準フロー

1. 検知(Detection)
   ├── 自動: アラート発報(PagerDuty)
   └── 手動: ユーザー報告、内部報告

2. トリアージ(Triage)[5分以内]
   ├── 影響範囲の初期評価
   ├── 重大度の判定(SEV1-4)
   └── ICのアサイン(SEV1/2の場合)

3. 対応(Response)
   ├── インシデントチャンネル作成(Slack)
   ├── 役割のアサイン
   ├── 影響緩和の実行(ロールバック、フェイルオーバー等)
   └── 定期的な状況アップデート(15分間隔)

4. 復旧(Recovery)
   ├── サービスの正常性確認
   ├── SLI値の回復確認
   └── モニタリング強化(24時間)

5. 事後処理(Post-incident)
   ├── インシデントサマリーの作成
   ├── ポストモーテムのスケジュール(72時間以内)
   └── タイムラインの整理

コミュニケーションプラン

対象報告頻度報告者チャンネル
対応チーム15分間隔IC#incident-xxx(Slack)
エンジニアリング組織30分間隔Comms Lead#engineering-status
経営層60分間隔 or 重大変化時Comms Leadメール + Slack DM
顧客状態変化時カスタマーサクセスステータスページ

エスカレーションのアンチパターン

よくある失敗

アンチパターン問題対策
ヒーロー文化1人の「達人」に頼り、他のメンバーが育たないローテーションとシャドーイングの徹底
エスカレーション恐怖「上に報告したら怒られる」と遅延エスカレーションは「良いこと」という文化
全員参加関係者全員がインシデントに飛びつくICが必要な人だけ招集
サイレントインシデント報告なしに対応が進み、情報が共有されないインシデントチャンネル必須のルール
終わりなきインシデント明確なクローズ基準がないSLI回復 + 24時間安定 = クローズ

まとめ

ポイント内容
役割分離IC、Ops Lead、Comms Lead、SME、Scribeの5つの役割
エスカレーション時間ベース + 重大度ベースの2軸で設計
コミュニケーション対象別に頻度とチャンネルを事前定義

チェックリスト

  • インシデント対応の5つの役割を理解した
  • 時間ベース・重大度ベースのエスカレーションフローを理解した
  • エスカレーションのアンチパターンを理解した

次のステップへ

次は「ランブックとプレイブック」です。インシデント対応時の手順書の作成方法を学びましょう。


推定読了時間: 30分