インシデント対応の実践 - L0 カリキュラム

ストーリー

佐

佐藤CTO

プロセスを知っていても、実際のインシデントは教科書通りにはいかない

佐

佐藤CTO

トリアージ、並行調査、ミティゲーション判断 — これらの実践的スキルが、障害時間を半分にする

トリアージの実践

最初の5分間チェックリスト

□ 何が壊れているか？（症状の確認）
□ いつから発生しているか？（タイムラインの開始点）
□ 影響範囲は？（ユーザー数、地域、機能）
□ 何か変更があったか？（デプロイ、設定変更、インフラ変更）
□ ワークアラウンドはあるか？

トリアージの判断基準

条件	判定
全ユーザーが主要機能を使えない	P1 → War Room即設置
一部ユーザーまたは一部機能に影響	P2 → IC任命、チーム招集
影響は限定的、ワークアラウンドあり	P3 → 担当チームで対応
ユーザー影響なし	P4 → 通常対応

並行調査テクニック

仮説駆動型調査

仮説1: 直近のデプロイが原因
  └─ 調査: デプロイ履歴確認、ロールバック検討

仮説2: インフラ障害（AWS等）
  └─ 調査: AWS Status確認、CloudWatch確認

仮説3: 外部依存サービスの障害
  └─ 調査: 依存サービスのヘルスチェック

仮説4: トラフィック急増
  └─ 調査: リクエスト数、CPU/メモリの確認

調査の並列化

担当者	調査領域	確認事項
エンジニアA	アプリケーション	ログ、エラー率、レスポンスタイム
エンジニアB	インフラ	サーバーメトリクス、ネットワーク
エンジニアC	データベース	クエリ性能、コネクション数、ロック
エンジニアD	外部依存	外部API、CDN、DNS

ミティゲーション vs 根本修正

判断フレームワーク

状況	推奨アクション
直近のデプロイ後に発生	即座にロールバック
トラフィック急増が原因	スケールアウト + レート制限
特定のリクエストパターンが原因	WAFでブロック + 後で修正
データ不整合が原因	影響データの修正 + 根本修正
外部サービス障害	フォールバック有効化 + 監視

ロールバック判断基準

ロールバックすべき場合:
  ✓ デプロイ直後（30分以内）に問題発生
  ✓ 問題の原因がデプロイ変更に明確に関連
  ✓ ロールバックによる副作用が小さい

ロールバックすべきでない場合:
  ✗ DB マイグレーションを含むデプロイ（後方互換性なし）
  ✗ 外部サービスの障害が原因
  ✗ ロールバックにより別の問題が発生する

インシデント中のドキュメント

タイムラインの記録

[14:00 JST] アラート検知: payment-service のエラー率が50%超過
[14:03 JST] IC: 田中がIC就任、#inc-20260214-payment 作成
[14:05 JST] トリアージ: P1判定、War Room設置
[14:10 JST] 調査開始: アプリチーム（ログ）、インフラチーム（メトリクス）
[14:15 JST] 発見: 14:00のデプロイ後にDB接続エラーが急増
[14:20 JST] 判断: ロールバック実施
[14:25 JST] ロールバック完了、エラー率低下を確認
[14:35 JST] 正常復帰を確認、監視強化フェーズへ
[15:00 JST] インシデントクローズ

まとめ

ポイント	内容
トリアージ	最初の5分で影響範囲と重大度を判定
並行調査	仮説を立て、複数チームで同時に調査
ミティゲーション	根本修正より先にユーザー影響を軽減
ドキュメント	リアルタイムでタイムラインを記録

次のステップへ

次は根本原因分析（RCA）の手法を学びます。

推定読了時間: 30分