LESSON 30分

ストーリー

佐藤CTO
アラートが鳴った。さて、誰が何をするか明確になっているか?
佐藤CTO
混乱の中で”誰が対応するのか”を議論するのは最悪だ。事前に役割と手順を定めておくことが、迅速な復旧の鍵になる

インシデント管理ライフサイクル

検知 → トリアージ → 宣言 → 対応 → 解決 → クローズ → 振り返り
フェーズ目的主なアクション
検知異常を認識する監視アラート、ユーザー報告、ヘルスチェック
トリアージ重大度を判定する影響範囲の評価、P1-P4の分類
宣言インシデントを公式に宣言ICの任命、チャンネル作成、関係者招集
対応影響を軽減する調査、封じ込め、ワークアラウンド
解決正常状態に復帰する修正デプロイ、確認テスト
クローズインシデントを終了するステータスページ更新、関係者通知
振り返り学びを得るポストモーテム、アクションアイテム

重大度分類

レベル名称ユーザー影響対応体制SLA
P1Critical全ユーザーがサービス利用不可War Room + 経営層報告15分以内に対応開始
P2Major主要機能が利用不可 or 大幅劣化War Room30分以内に対応開始
P3Minor一部機能に影響担当チーム4時間以内に対応開始
P4Low軽微な影響、ワークアラウンドあり担当者翌営業日

インシデントコマンダー(IC)の役割

責任

責任内容
全体統括対応活動全体を指揮する
意思決定対応方針の最終決定
エスカレーション必要に応じて上位に報告
リソース調達必要な人材・ツールの確保
コミュニケーションステータス更新の指示

ICがやらないこと

  • 自分で技術的な調査をしない(テクニカルリードに委任)
  • 自分でコードを修正しない
  • 全ての詳細を把握しようとしない(大局観を保つ)

コミュニケーションチャンネル

Slackチャンネル命名規則

#inc-YYYYMMDD-概要
例: #inc-20260214-payment-timeout

ステータスページ管理

状態表示説明
Investigating調査中問題を認識し、調査を開始
Identified原因特定問題の原因を特定、対応中
Monitoring監視中修正適用済み、安定性を監視
Resolved解決問題が解決し、正常に稼働

ステークホルダーコミュニケーション

テンプレート(初回通知)

件名: [P1] サービス障害発生のお知らせ

現在、以下の障害が発生しています。

■ 影響
  - 対象: [影響を受けるサービス/機能]
  - 発生時刻: [YYYY-MM-DD HH:MM JST]
  - 影響範囲: [ユーザー数/地域]

■ 対応状況
  - インシデントコマンダー: [氏名]
  - 現在のステータス: [調査中/原因特定/対応中]

■ 次回更新
  - [30分後 / HH:MM]に次回ステータス更新を行います

■ お問い合わせ
  - Slack: #inc-YYYYMMDD-概要

まとめ

ポイント内容
ライフサイクル検知から振り返りまでの体系的なフロー
重大度分類P1-P4で対応速度と体制を明確化
IC指揮に専念し、技術調査は委任する
コミュニケーション定型テンプレートで迅速・正確な情報共有

次のステップへ

次はインシデント対応の実践的なテクニックを学びます。


推定読了時間: 30分