ストーリー
佐
佐藤CTO
アラートが鳴った。さて、誰が何をするか明確になっているか?
佐
佐藤CTO
混乱の中で”誰が対応するのか”を議論するのは最悪だ。事前に役割と手順を定めておくことが、迅速な復旧の鍵になる
インシデント管理ライフサイクル
検知 → トリアージ → 宣言 → 対応 → 解決 → クローズ → 振り返り
| フェーズ | 目的 | 主なアクション |
|---|
| 検知 | 異常を認識する | 監視アラート、ユーザー報告、ヘルスチェック |
| トリアージ | 重大度を判定する | 影響範囲の評価、P1-P4の分類 |
| 宣言 | インシデントを公式に宣言 | ICの任命、チャンネル作成、関係者招集 |
| 対応 | 影響を軽減する | 調査、封じ込め、ワークアラウンド |
| 解決 | 正常状態に復帰する | 修正デプロイ、確認テスト |
| クローズ | インシデントを終了する | ステータスページ更新、関係者通知 |
| 振り返り | 学びを得る | ポストモーテム、アクションアイテム |
重大度分類
| レベル | 名称 | ユーザー影響 | 対応体制 | SLA |
|---|
| P1 | Critical | 全ユーザーがサービス利用不可 | War Room + 経営層報告 | 15分以内に対応開始 |
| P2 | Major | 主要機能が利用不可 or 大幅劣化 | War Room | 30分以内に対応開始 |
| P3 | Minor | 一部機能に影響 | 担当チーム | 4時間以内に対応開始 |
| P4 | Low | 軽微な影響、ワークアラウンドあり | 担当者 | 翌営業日 |
インシデントコマンダー(IC)の役割
責任
| 責任 | 内容 |
|---|
| 全体統括 | 対応活動全体を指揮する |
| 意思決定 | 対応方針の最終決定 |
| エスカレーション | 必要に応じて上位に報告 |
| リソース調達 | 必要な人材・ツールの確保 |
| コミュニケーション | ステータス更新の指示 |
ICがやらないこと
- 自分で技術的な調査をしない(テクニカルリードに委任)
- 自分でコードを修正しない
- 全ての詳細を把握しようとしない(大局観を保つ)
コミュニケーションチャンネル
Slackチャンネル命名規則
#inc-YYYYMMDD-概要
例: #inc-20260214-payment-timeout
ステータスページ管理
| 状態 | 表示 | 説明 |
|---|
| Investigating | 調査中 | 問題を認識し、調査を開始 |
| Identified | 原因特定 | 問題の原因を特定、対応中 |
| Monitoring | 監視中 | 修正適用済み、安定性を監視 |
| Resolved | 解決 | 問題が解決し、正常に稼働 |
ステークホルダーコミュニケーション
テンプレート(初回通知)
件名: [P1] サービス障害発生のお知らせ
現在、以下の障害が発生しています。
■ 影響
- 対象: [影響を受けるサービス/機能]
- 発生時刻: [YYYY-MM-DD HH:MM JST]
- 影響範囲: [ユーザー数/地域]
■ 対応状況
- インシデントコマンダー: [氏名]
- 現在のステータス: [調査中/原因特定/対応中]
■ 次回更新
- [30分後 / HH:MM]に次回ステータス更新を行います
■ お問い合わせ
- Slack: #inc-YYYYMMDD-概要
まとめ
| ポイント | 内容 |
|---|
| ライフサイクル | 検知から振り返りまでの体系的なフロー |
| 重大度分類 | P1-P4で対応速度と体制を明確化 |
| IC | 指揮に専念し、技術調査は委任する |
| コミュニケーション | 定型テンプレートで迅速・正確な情報共有 |
次のステップへ
次はインシデント対応の実践的なテクニックを学びます。
推定読了時間: 30分