LESSON 30分

ストーリー

佐藤CTO
プロセスを知っていても、実際のインシデントは教科書通りにはいかない
佐藤CTO
トリアージ、並行調査、ミティゲーション判断 — これらの実践的スキルが、障害時間を半分にする

トリアージの実践

最初の5分間チェックリスト

□ 何が壊れているか?(症状の確認)
□ いつから発生しているか?(タイムラインの開始点)
□ 影響範囲は?(ユーザー数、地域、機能)
□ 何か変更があったか?(デプロイ、設定変更、インフラ変更)
□ ワークアラウンドはあるか?

トリアージの判断基準

条件判定
全ユーザーが主要機能を使えないP1 → War Room即設置
一部ユーザーまたは一部機能に影響P2 → IC任命、チーム招集
影響は限定的、ワークアラウンドありP3 → 担当チームで対応
ユーザー影響なしP4 → 通常対応

並行調査テクニック

仮説駆動型調査

仮説1: 直近のデプロイが原因
  └─ 調査: デプロイ履歴確認、ロールバック検討

仮説2: インフラ障害(AWS等)
  └─ 調査: AWS Status確認、CloudWatch確認

仮説3: 外部依存サービスの障害
  └─ 調査: 依存サービスのヘルスチェック

仮説4: トラフィック急増
  └─ 調査: リクエスト数、CPU/メモリの確認

調査の並列化

担当者調査領域確認事項
エンジニアAアプリケーションログ、エラー率、レスポンスタイム
エンジニアBインフラサーバーメトリクス、ネットワーク
エンジニアCデータベースクエリ性能、コネクション数、ロック
エンジニアD外部依存外部API、CDN、DNS

ミティゲーション vs 根本修正

判断フレームワーク

状況推奨アクション
直近のデプロイ後に発生即座にロールバック
トラフィック急増が原因スケールアウト + レート制限
特定のリクエストパターンが原因WAFでブロック + 後で修正
データ不整合が原因影響データの修正 + 根本修正
外部サービス障害フォールバック有効化 + 監視

ロールバック判断基準

ロールバックすべき場合:
  ✓ デプロイ直後(30分以内)に問題発生
  ✓ 問題の原因がデプロイ変更に明確に関連
  ✓ ロールバックによる副作用が小さい

ロールバックすべきでない場合:
  ✗ DB マイグレーションを含むデプロイ(後方互換性なし)
  ✗ 外部サービスの障害が原因
  ✗ ロールバックにより別の問題が発生する

インシデント中のドキュメント

タイムラインの記録

[14:00 JST] アラート検知: payment-service のエラー率が50%超過
[14:03 JST] IC: 田中がIC就任、#inc-20260214-payment 作成
[14:05 JST] トリアージ: P1判定、War Room設置
[14:10 JST] 調査開始: アプリチーム(ログ)、インフラチーム(メトリクス)
[14:15 JST] 発見: 14:00のデプロイ後にDB接続エラーが急増
[14:20 JST] 判断: ロールバック実施
[14:25 JST] ロールバック完了、エラー率低下を確認
[14:35 JST] 正常復帰を確認、監視強化フェーズへ
[15:00 JST] インシデントクローズ

まとめ

ポイント内容
トリアージ最初の5分で影響範囲と重大度を判定
並行調査仮説を立て、複数チームで同時に調査
ミティゲーション根本修正より先にユーザー影響を軽減
ドキュメントリアルタイムでタイムラインを記録

次のステップへ

次は根本原因分析(RCA)の手法を学びます。


推定読了時間: 30分