エスカレーションフロー

ストーリー

田

田中VPoE

オンコール体制の基本を理解した。次は「インシデント発生時に何が起きるか」のフロー全体を設計する

あなた

誰に連絡して、誰が判断して、という流れですね

あ

田

田中VPoE

そうだ。だが実際のインシデント対応は混沌としている。チャットが飛び交い、複数人が同時に異なる対応をし、誰が何をしているか誰もわからない。この混沌を構造化するのがエスカレーションフローだ

あなた

インシデントコマンダーのような役割も必要ですか？

あ

田

田中VPoE

その通り。役割を明確にし、コミュニケーションパスを整理する。障害の最中に「誰に報告すればいいんだ？」と迷う時間はゼロにしたい

インシデント対応の役割

標準ロール

ロール	責務	人数
Incident Commander（IC）	対応全体の指揮、判断、コミュニケーション管理	1名
Operations Lead	技術的な調査と対応の実行	1名
Communications Lead	ステークホルダーへの状況報告	1名
Subject Matter Expert（SME）	専門領域の知見提供	必要に応じて
Scribe	タイムラインと対応内容の記録	1名

役割の分離が重要な理由

悪い例: 1人がすべてを担当
  → 技術対応しながら報告書を書きながら上司に報告
  → すべてが中途半端になり、対応が長引く

良い例: 役割を分離
  IC: 「DBの調査はAさん、ネットワークの確認はBさん、15分後に状況共有」
  Ops Lead: 技術対応に集中
  Comms Lead: 経営層に「現在対応中、影響範囲はX、復旧見込みはY」を報告
  Scribe: タイムラインを記録（ポストモーテムの素材に）

時間ベースのエスカレーション

経過時間	アクション	エスカレーション先
0分	アラート発報、オンコール担当に通知	Primary On-call
5分	Primary応答なし	Secondary On-call
15分	影響が継続	SREリードに通知、ICをアサイン
30分	復旧見込みなし	エンジニアリングマネージャーに通知
60分	重大影響が継続	VPoE/CTOに通知
120分以上	長期インシデント	交代要員の手配、経営層への定期報告体制

重大度ベースのエスカレーション

重大度	定義	初動対応
SEV1（Critical）	サービス全面停止、データ損失の可能性	即座にIC任命、全関係者を招集
SEV2（Major）	主要機能の障害、多数のユーザーに影響	IC任命、対応チーム編成
SEV3（Minor）	一部機能の障害、限定的な影響	オンコール担当が対応
SEV4（Low）	軽微な問題、回避策あり	営業時間内に対応

重大度の判断基準

判断軸	SEV1	SEV2	SEV3	SEV4
ユーザー影響	全ユーザー	多数（>10%）	一部（<10%）	ごく一部
売上影響	直接損失あり	間接的損失	軽微	なし
データ	損失・破損のリスク	整合性の懸念	なし	なし
バーンレート	>10	>5	>2	>1

インシデント対応フロー

標準フロー

1. 検知（Detection）
   ├── 自動: アラート発報（PagerDuty）
   └── 手動: ユーザー報告、内部報告

2. トリアージ（Triage）[5分以内]
   ├── 影響範囲の初期評価
   ├── 重大度の判定（SEV1-4）
   └── ICのアサイン（SEV1/2の場合）

3. 対応（Response）
   ├── インシデントチャンネル作成（Slack）
   ├── 役割のアサイン
   ├── 影響緩和の実行（ロールバック、フェイルオーバー等）
   └── 定期的な状況アップデート（15分間隔）

4. 復旧（Recovery）
   ├── サービスの正常性確認
   ├── SLI値の回復確認
   └── モニタリング強化（24時間）

5. 事後処理（Post-incident）
   ├── インシデントサマリーの作成
   ├── ポストモーテムのスケジュール（72時間以内）
   └── タイムラインの整理

コミュニケーションプラン

対象	報告頻度	報告者	チャンネル
対応チーム	15分間隔	IC	#incident-xxx（Slack）
エンジニアリング組織	30分間隔	Comms Lead	#engineering-status
経営層	60分間隔 or 重大変化時	Comms Lead	メール + Slack DM
顧客	状態変化時	カスタマーサクセス	ステータスページ

エスカレーションのアンチパターン

よくある失敗

アンチパターン	問題	対策
ヒーロー文化	1人の「達人」に頼り、他のメンバーが育たない	ローテーションとシャドーイングの徹底
エスカレーション恐怖	「上に報告したら怒られる」と遅延	エスカレーションは「良いこと」という文化
全員参加	関係者全員がインシデントに飛びつく	ICが必要な人だけ招集
サイレントインシデント	報告なしに対応が進み、情報が共有されない	インシデントチャンネル必須のルール
終わりなきインシデント	明確なクローズ基準がない	SLI回復 + 24時間安定 = クローズ

まとめ

ポイント	内容
役割分離	IC、Ops Lead、Comms Lead、SME、Scribeの5つの役割
エスカレーション	時間ベース + 重大度ベースの2軸で設計
コミュニケーション	対象別に頻度とチャンネルを事前定義

チェックリスト

インシデント対応の5つの役割を理解した
時間ベース・重大度ベースのエスカレーションフローを理解した
エスカレーションのアンチパターンを理解した

次のステップへ

次は「ランブックとプレイブック」です。インシデント対応時の手順書の作成方法を学びましょう。

推定読了時間: 30分