ストーリー
田
田中VPoE
オンコール体制の基本を理解した。次は「インシデント発生時に何が起きるか」のフロー全体を設計する
あなた
誰に連絡して、誰が判断して、という流れですね
あ
田
田中VPoE
そうだ。だが実際のインシデント対応は混沌としている。チャットが飛び交い、複数人が同時に異なる対応をし、誰が何をしているか誰もわからない。この混沌を構造化するのがエスカレーションフローだ
あなた
インシデントコマンダーのような役割も必要ですか?
あ
田
田中VPoE
その通り。役割を明確にし、コミュニケーションパスを整理する。障害の最中に「誰に報告すればいいんだ?」と迷う時間はゼロにしたい
インシデント対応の役割
標準ロール
| ロール | 責務 | 人数 |
|---|
| Incident Commander(IC) | 対応全体の指揮、判断、コミュニケーション管理 | 1名 |
| Operations Lead | 技術的な調査と対応の実行 | 1名 |
| Communications Lead | ステークホルダーへの状況報告 | 1名 |
| Subject Matter Expert(SME) | 専門領域の知見提供 | 必要に応じて |
| Scribe | タイムラインと対応内容の記録 | 1名 |
役割の分離が重要な理由
悪い例: 1人がすべてを担当
→ 技術対応しながら報告書を書きながら上司に報告
→ すべてが中途半端になり、対応が長引く
良い例: 役割を分離
IC: 「DBの調査はAさん、ネットワークの確認はBさん、15分後に状況共有」
Ops Lead: 技術対応に集中
Comms Lead: 経営層に「現在対応中、影響範囲はX、復旧見込みはY」を報告
Scribe: タイムラインを記録(ポストモーテムの素材に)
エスカレーションフロー
時間ベースのエスカレーション
| 経過時間 | アクション | エスカレーション先 |
|---|
| 0分 | アラート発報、オンコール担当に通知 | Primary On-call |
| 5分 | Primary応答なし | Secondary On-call |
| 15分 | 影響が継続 | SREリードに通知、ICをアサイン |
| 30分 | 復旧見込みなし | エンジニアリングマネージャーに通知 |
| 60分 | 重大影響が継続 | VPoE/CTOに通知 |
| 120分以上 | 長期インシデント | 交代要員の手配、経営層への定期報告体制 |
重大度ベースのエスカレーション
| 重大度 | 定義 | 初動対応 |
|---|
| SEV1(Critical) | サービス全面停止、データ損失の可能性 | 即座にIC任命、全関係者を招集 |
| SEV2(Major) | 主要機能の障害、多数のユーザーに影響 | IC任命、対応チーム編成 |
| SEV3(Minor) | 一部機能の障害、限定的な影響 | オンコール担当が対応 |
| SEV4(Low) | 軽微な問題、回避策あり | 営業時間内に対応 |
重大度の判断基準
| 判断軸 | SEV1 | SEV2 | SEV3 | SEV4 |
|---|
| ユーザー影響 | 全ユーザー | 多数(>10%) | 一部(<10%) | ごく一部 |
| 売上影響 | 直接損失あり | 間接的損失 | 軽微 | なし |
| データ | 損失・破損のリスク | 整合性の懸念 | なし | なし |
| バーンレート | >10 | >5 | >2 | >1 |
インシデント対応フロー
標準フロー
1. 検知(Detection)
├── 自動: アラート発報(PagerDuty)
└── 手動: ユーザー報告、内部報告
2. トリアージ(Triage)[5分以内]
├── 影響範囲の初期評価
├── 重大度の判定(SEV1-4)
└── ICのアサイン(SEV1/2の場合)
3. 対応(Response)
├── インシデントチャンネル作成(Slack)
├── 役割のアサイン
├── 影響緩和の実行(ロールバック、フェイルオーバー等)
└── 定期的な状況アップデート(15分間隔)
4. 復旧(Recovery)
├── サービスの正常性確認
├── SLI値の回復確認
└── モニタリング強化(24時間)
5. 事後処理(Post-incident)
├── インシデントサマリーの作成
├── ポストモーテムのスケジュール(72時間以内)
└── タイムラインの整理
コミュニケーションプラン
| 対象 | 報告頻度 | 報告者 | チャンネル |
|---|
| 対応チーム | 15分間隔 | IC | #incident-xxx(Slack) |
| エンジニアリング組織 | 30分間隔 | Comms Lead | #engineering-status |
| 経営層 | 60分間隔 or 重大変化時 | Comms Lead | メール + Slack DM |
| 顧客 | 状態変化時 | カスタマーサクセス | ステータスページ |
エスカレーションのアンチパターン
よくある失敗
| アンチパターン | 問題 | 対策 |
|---|
| ヒーロー文化 | 1人の「達人」に頼り、他のメンバーが育たない | ローテーションとシャドーイングの徹底 |
| エスカレーション恐怖 | 「上に報告したら怒られる」と遅延 | エスカレーションは「良いこと」という文化 |
| 全員参加 | 関係者全員がインシデントに飛びつく | ICが必要な人だけ招集 |
| サイレントインシデント | 報告なしに対応が進み、情報が共有されない | インシデントチャンネル必須のルール |
| 終わりなきインシデント | 明確なクローズ基準がない | SLI回復 + 24時間安定 = クローズ |
まとめ
| ポイント | 内容 |
|---|
| 役割分離 | IC、Ops Lead、Comms Lead、SME、Scribeの5つの役割 |
| エスカレーション | 時間ベース + 重大度ベースの2軸で設計 |
| コミュニケーション | 対象別に頻度とチャンネルを事前定義 |
チェックリスト
次のステップへ
次は「ランブックとプレイブック」です。インシデント対応時の手順書の作成方法を学びましょう。
推定読了時間: 30分