ストーリー
ミッション概要
| ミッション | テーマ | 目安時間 |
|---|---|---|
| Mission 1 | インシデントのトリアージと対応 | 15分 |
| Mission 2 | 根本原因分析レポート作成 | 15分 |
| Mission 3 | アクションアイテム策定 | 10分 |
| Mission 4 | 再発防止の仕組み設計 | 10分 |
前提シナリオ
サービス: ECプラットフォーム「ShopNow」
状況: 金曜18:00、決済サービスのエラー率が急上昇
アラート: payment-service の 5xx エラー率が 30% を超過
影響: 購入完了できないユーザーが続出
直近の変更: 17:45 に payment-service v2.3.1 をデプロイ
Mission 1: トリアージと対応判断(15分)
要件
このインシデントのトリアージを行い、対応計画を作成してください。
解答例
トリアージ結果
| 項目 | 判定 |
|---|---|
| 重大度 | P1(決済機能は全ユーザーに影響する主要機能) |
| 影響範囲 | 全ユーザーの購入操作(推定30%が失敗) |
| 開始時刻 | 17(デプロイ5分後) |
| 直近の変更 | 17 payment-service v2.3.1 デプロイ |
対応計画
| 時間 | アクション | 担当 |
|---|---|---|
| 18 | IC任命、#inc-20260214-payment 作成 | オンコールSRE |
| 18 | 調査開始:ログ確認 + デプロイ差分確認 | エンジニア2名 |
| 18 | デプロイ直後の発生 → 即ロールバック判断 | IC |
| 18 | v2.3.0にロールバック実施 | デプロイ担当 |
| 18 | エラー率の回復を確認 | SRE |
| 18 | 監視強化フェーズへ移行 | SRE |
Mission 2: 根本原因分析レポート(15分)
要件
5 Whys を使って根本原因を分析し、タイムラインを含むRCAレポートを作成してください。
解答例
5 Whys分析
Why 1: なぜエラー率が急上昇した?
→ 決済API呼び出しがタイムアウトした
Why 2: なぜタイムアウトした?
→ v2.3.1で導入した新しいバリデーションロジックが重い処理を含んでいた
Why 3: なぜ重い処理に気づかなかった?
→ ステージング環境のテストでは少量データでしかテストしていなかった
Why 4: なぜ本番相当のデータでテストしなかった?
→ 負荷テストが任意で、決済チームではスキップされていた
Why 5: なぜ必須化されていなかった?
→ デプロイパイプラインに負荷テストゲートが組み込まれていなかった
根本原因: デプロイパイプラインに決済サービスの負荷テストが必須化されていない
Mission 3: アクションアイテム策定(10分)
要件
RCA結果から具体的なアクションアイテムを策定してください。
解答例
| ID | タイトル | 優先度 | 担当 | 期限 |
|---|---|---|---|---|
| AI-001 | v2.3.1のバリデーションロジックを最適化 | P0 | 決済チーム | 1週間 |
| AI-002 | 決済サービスのデプロイに負荷テストゲート追加 | P1 | SRE | 2週間 |
| AI-003 | ステージング環境に本番相当データのサブセット導入 | P1 | インフラ | 1ヶ月 |
| AI-004 | デプロイ後の自動カナリア分析導入 | P2 | SRE | 四半期 |
| AI-005 | 決済サービスのCircuit Breaker実装 | P2 | 決済チーム | 四半期 |
Mission 4: 再発防止の仕組み設計(10分)
要件
Level 3以上(自動検知・自動修復以上)の再発防止策を設計してください。
解答例
Level 4: 発生不可能にする
- デプロイパイプラインに負荷テストを必須ゲートとして組み込み、基準を満たさないデプロイをブロック
- 決済APIのレスポンスタイム基準: p95 < 200ms
Level 3: 自動検知・自動修復
- カナリアデプロイ導入:新バージョンを5%のトラフィックに流し、エラー率が閾値を超えたら自動ロールバック
- Circuit Breaker:決済APIのエラー率50%超で自動的にフォールバック(リトライキューに移行)
まとめ
| ポイント | 内容 |
|---|---|
| トリアージ | 重大度判定と初動を迅速に行う |
| RCA | 5 Whysで仕組みの問題まで深掘りする |
| アクションアイテム | 具体的・期限付き・担当明確で策定 |
| 再発防止 | 自動化による高レベルの防止策を目指す |
チェックリスト
- トリアージと対応計画を作成できた
- 5 Whysで根本原因を分析できた
- 具体的なアクションアイテムを策定できた
- Level 3以上の再発防止策を設計できた
次のステップへ
次はチェックポイントクイズで理解度を確認します。
推定読了時間: 50分