ストーリー
田
田中VPoE
ポストモーテムの書き方を学んだ。だが、よくある問題がある。ポストモーテムを書いて「終わり」にしてしまうチームが多い
あなた
アクションアイテムが放置される、ということですか?
あ
田
田中VPoE
そうだ。うちの会社でも過去の障害報告書に「再発防止策: ○○を実装する」と書かれたまま、何ヶ月も放置されていたことがある。同じ障害が再発して初めて「あ、あのアクションやってなかった」と気づく
田
田中VPoE
だからこそ、アクションアイテムの追跡と、改善サイクル全体の仕組みが必要だ
アクションアイテムの設計
良いアクションアイテムの条件
| 条件 | 良い例 | 悪い例 |
|---|
| 具体的 | CIパイプラインにメモリ負荷テストを追加する | テストを強化する |
| 測定可能 | デプロイ時間を30分以内にする | デプロイを速くする |
| 担当者が明確 | 鈴木さん(バックエンドチームA) | バックエンドチーム |
| 期限がある | 2月末まで | できるだけ早く |
| 優先度がある | P1(次スプリントに組み込み) | 時間があるときに |
3分類による網羅性確認
| 分類 | 目的 | 質問 |
|---|
| 防止(Prevent) | 根本原因を除去 | 「この障害が二度と起きないようにするには?」 |
| 検知(Detect) | より早く発見 | 「この障害を5分以内に検知するには?」 |
| 緩和(Mitigate) | 影響を最小化 | 「この障害が起きたとき、影響を半分にするには?」 |
理想的なアクションアイテム構成:
防止: 2-3件
- 根本原因への対処
- 類似問題の予防
検知: 1-2件
- アラートの追加・改善
- モニタリングの強化
緩和: 1-2件
- フェイルオーバーの改善
- ロールバック手順の整備
合計: 4-7件が適切
→ 多すぎると実行されない
→ 少なすぎると対策が不十分
追跡の仕組み
アクションアイテムの管理
| プラクティス | 説明 |
|---|
| 課題管理ツールに登録 | ポストモーテムのアクションアイテムはJira/GitHub Issuesに即座に登録 |
| ラベル付け | 「postmortem」ラベルで一元管理 |
| スプリントに組み込み | P1アクションは次スプリントに強制的に組み込み |
| 週次レビュー | SREチームの週次ミーティングで進捗確認 |
| 月次レポート | 全アクションアイテムの完了率を月次報告 |
完了率の目標
| 優先度 | 完了期限 | 目標完了率 |
|---|
| P1(緊急) | 2週間以内 | 100% |
| P2(重要) | 1ヶ月以内 | 90%以上 |
| P3(改善) | 四半期以内 | 70%以上 |
未完了アクションのエスカレーション
アクションアイテムのエスカレーション:
期限超過 1週間 → Slack通知を担当者に送信
期限超過 2週間 → SREリードが担当者と1on1でブロッカーを確認
期限超過 1ヶ月 → EMにエスカレーション、リソース割り当てを再検討
期限超過 2ヶ月 → VPoEにエスカレーション、組織的な優先度議論
改善サイクルの設計
PDCAサイクルの適用
| フェーズ | 活動 | 成果物 |
|---|
| Plan | ポストモーテムのアクションアイテムを計画 | スプリントバックログ |
| Do | アクションアイテムを実行 | コード変更、設定変更、プロセス変更 |
| Check | 実施後の効果を検証 | メトリクスの改善確認 |
| Act | 効果があれば標準化、なければ再検討 | ランブック更新、ベストプラクティス |
改善の効果測定
| 指標 | 測定方法 | 改善の判断基準 |
|---|
| 同種インシデント再発率 | 類似インシデントの発生回数 | 再発ゼロ |
| MTTR改善 | 類似インシデントの復旧時間 | 50%以上短縮 |
| アラート品質 | アクション率の変化 | 5%以上改善 |
| エラーバジェット消費 | 月間消費量の推移 | 減少トレンド |
組織的な学習の仕組み
ナレッジ共有
| プラクティス | 頻度 | 内容 |
|---|
| ポストモーテム共有会 | 月1回 | 当月の主要なポストモーテムを全エンジニアに共有 |
| Failure Friday | 隔週 | 過去のインシデントから1つを取り上げ、学びを議論 |
| ポストモーテムリポジトリ | 常時 | 全ポストモーテムを検索可能な形で蓄積 |
| 新人研修 | 入社時 | 主要なポストモーテムを教材として使用 |
トレンド分析
| 分析 | 頻度 | 目的 |
|---|
| 根本原因カテゴリ分析 | 四半期 | どのカテゴリの問題が多いかを特定 |
| 再発パターン分析 | 四半期 | 同種の問題が繰り返されていないかを確認 |
| アクション完了率分析 | 月次 | アクションが実行されているかを確認 |
| 改善効果分析 | 半期 | 実施した改善の効果を定量評価 |
まとめ
| ポイント | 内容 |
|---|
| アクションアイテム | 防止・検知・緩和の3分類で4-7件が適切 |
| 追跡の仕組み | 課題管理ツール + 週次レビュー + エスカレーション |
| 改善サイクル | PDCAを回し、効果を定量的に検証する |
チェックリスト
次のステップへ
次は「インシデントメトリクス」です。インシデント管理の効果を定量的に測定する指標について学びましょう。
推定読了時間: 30分