EXERCISE 50分

ストーリー

佐藤CTO
インシデント対応は座学だけでは身につかない。実際に手を動かしてみよう

ミッション概要

ミッションテーマ目安時間
Mission 1インシデントのトリアージと対応15分
Mission 2根本原因分析レポート作成15分
Mission 3アクションアイテム策定10分
Mission 4再発防止の仕組み設計10分

前提シナリオ

サービス: ECプラットフォーム「ShopNow」
状況: 金曜18:00、決済サービスのエラー率が急上昇
アラート: payment-service の 5xx エラー率が 30% を超過
影響: 購入完了できないユーザーが続出
直近の変更: 17:45 に payment-service v2.3.1 をデプロイ

Mission 1: トリアージと対応判断(15分)

要件

このインシデントのトリアージを行い、対応計画を作成してください。

解答例

トリアージ結果

項目判定
重大度P1(決済機能は全ユーザーに影響する主要機能)
影響範囲全ユーザーの購入操作(推定30%が失敗)
開始時刻17
(デプロイ5分後)
直近の変更17
payment-service v2.3.1 デプロイ

対応計画

時間アクション担当
18
IC任命、#inc-20260214-payment 作成オンコールSRE
18
調査開始:ログ確認 + デプロイ差分確認エンジニア2名
18
デプロイ直後の発生 → 即ロールバック判断IC
18
v2.3.0にロールバック実施デプロイ担当
18
エラー率の回復を確認SRE
18
監視強化フェーズへ移行SRE

Mission 2: 根本原因分析レポート(15分)

要件

5 Whys を使って根本原因を分析し、タイムラインを含むRCAレポートを作成してください。

解答例

5 Whys分析

Why 1: なぜエラー率が急上昇した?
  → 決済API呼び出しがタイムアウトした

Why 2: なぜタイムアウトした?
  → v2.3.1で導入した新しいバリデーションロジックが重い処理を含んでいた

Why 3: なぜ重い処理に気づかなかった?
  → ステージング環境のテストでは少量データでしかテストしていなかった

Why 4: なぜ本番相当のデータでテストしなかった?
  → 負荷テストが任意で、決済チームではスキップされていた

Why 5: なぜ必須化されていなかった?
  → デプロイパイプラインに負荷テストゲートが組み込まれていなかった

根本原因: デプロイパイプラインに決済サービスの負荷テストが必須化されていない


Mission 3: アクションアイテム策定(10分)

要件

RCA結果から具体的なアクションアイテムを策定してください。

解答例
IDタイトル優先度担当期限
AI-001v2.3.1のバリデーションロジックを最適化P0決済チーム1週間
AI-002決済サービスのデプロイに負荷テストゲート追加P1SRE2週間
AI-003ステージング環境に本番相当データのサブセット導入P1インフラ1ヶ月
AI-004デプロイ後の自動カナリア分析導入P2SRE四半期
AI-005決済サービスのCircuit Breaker実装P2決済チーム四半期

Mission 4: 再発防止の仕組み設計(10分)

要件

Level 3以上(自動検知・自動修復以上)の再発防止策を設計してください。

解答例

Level 4: 発生不可能にする

  • デプロイパイプラインに負荷テストを必須ゲートとして組み込み、基準を満たさないデプロイをブロック
  • 決済APIのレスポンスタイム基準: p95 < 200ms

Level 3: 自動検知・自動修復

  • カナリアデプロイ導入:新バージョンを5%のトラフィックに流し、エラー率が閾値を超えたら自動ロールバック
  • Circuit Breaker:決済APIのエラー率50%超で自動的にフォールバック(リトライキューに移行)

まとめ

ポイント内容
トリアージ重大度判定と初動を迅速に行う
RCA5 Whysで仕組みの問題まで深掘りする
アクションアイテム具体的・期限付き・担当明確で策定
再発防止自動化による高レベルの防止策を目指す

チェックリスト

  • トリアージと対応計画を作成できた
  • 5 Whysで根本原因を分析できた
  • 具体的なアクションアイテムを策定できた
  • Level 3以上の再発防止策を設計できた

次のステップへ

次はチェックポイントクイズで理解度を確認します。


推定読了時間: 50分