LESSON 30分

ストーリー

田中VPoE
ポストモーテムの書き方を学んだ。だが、よくある問題がある。ポストモーテムを書いて「終わり」にしてしまうチームが多い
あなた
アクションアイテムが放置される、ということですか?
田中VPoE
そうだ。うちの会社でも過去の障害報告書に「再発防止策: ○○を実装する」と書かれたまま、何ヶ月も放置されていたことがある。同じ障害が再発して初めて「あ、あのアクションやってなかった」と気づく
あなた
それでは書いた意味がないですね
田中VPoE
だからこそ、アクションアイテムの追跡と、改善サイクル全体の仕組みが必要だ

アクションアイテムの設計

良いアクションアイテムの条件

条件良い例悪い例
具体的CIパイプラインにメモリ負荷テストを追加するテストを強化する
測定可能デプロイ時間を30分以内にするデプロイを速くする
担当者が明確鈴木さん(バックエンドチームA)バックエンドチーム
期限がある2月末までできるだけ早く
優先度があるP1(次スプリントに組み込み)時間があるときに

3分類による網羅性確認

分類目的質問
防止(Prevent)根本原因を除去「この障害が二度と起きないようにするには?」
検知(Detect)より早く発見「この障害を5分以内に検知するには?」
緩和(Mitigate)影響を最小化「この障害が起きたとき、影響を半分にするには?」
理想的なアクションアイテム構成:

防止: 2-3件
  - 根本原因への対処
  - 類似問題の予防

検知: 1-2件
  - アラートの追加・改善
  - モニタリングの強化

緩和: 1-2件
  - フェイルオーバーの改善
  - ロールバック手順の整備

合計: 4-7件が適切
→ 多すぎると実行されない
→ 少なすぎると対策が不十分

追跡の仕組み

アクションアイテムの管理

プラクティス説明
課題管理ツールに登録ポストモーテムのアクションアイテムはJira/GitHub Issuesに即座に登録
ラベル付け「postmortem」ラベルで一元管理
スプリントに組み込みP1アクションは次スプリントに強制的に組み込み
週次レビューSREチームの週次ミーティングで進捗確認
月次レポート全アクションアイテムの完了率を月次報告

完了率の目標

優先度完了期限目標完了率
P1(緊急)2週間以内100%
P2(重要)1ヶ月以内90%以上
P3(改善)四半期以内70%以上

未完了アクションのエスカレーション

アクションアイテムのエスカレーション:

期限超過 1週間 → Slack通知を担当者に送信
期限超過 2週間 → SREリードが担当者と1on1でブロッカーを確認
期限超過 1ヶ月 → EMにエスカレーション、リソース割り当てを再検討
期限超過 2ヶ月 → VPoEにエスカレーション、組織的な優先度議論

改善サイクルの設計

PDCAサイクルの適用

フェーズ活動成果物
Planポストモーテムのアクションアイテムを計画スプリントバックログ
Doアクションアイテムを実行コード変更、設定変更、プロセス変更
Check実施後の効果を検証メトリクスの改善確認
Act効果があれば標準化、なければ再検討ランブック更新、ベストプラクティス

改善の効果測定

指標測定方法改善の判断基準
同種インシデント再発率類似インシデントの発生回数再発ゼロ
MTTR改善類似インシデントの復旧時間50%以上短縮
アラート品質アクション率の変化5%以上改善
エラーバジェット消費月間消費量の推移減少トレンド

組織的な学習の仕組み

ナレッジ共有

プラクティス頻度内容
ポストモーテム共有会月1回当月の主要なポストモーテムを全エンジニアに共有
Failure Friday隔週過去のインシデントから1つを取り上げ、学びを議論
ポストモーテムリポジトリ常時全ポストモーテムを検索可能な形で蓄積
新人研修入社時主要なポストモーテムを教材として使用

トレンド分析

分析頻度目的
根本原因カテゴリ分析四半期どのカテゴリの問題が多いかを特定
再発パターン分析四半期同種の問題が繰り返されていないかを確認
アクション完了率分析月次アクションが実行されているかを確認
改善効果分析半期実施した改善の効果を定量評価

まとめ

ポイント内容
アクションアイテム防止・検知・緩和の3分類で4-7件が適切
追跡の仕組み課題管理ツール + 週次レビュー + エスカレーション
改善サイクルPDCAを回し、効果を定量的に検証する

チェックリスト

  • 良いアクションアイテムの条件を理解した
  • アクションアイテムの追跡と完了率管理の方法を理解した
  • 組織的な学習の仕組みを理解した

次のステップへ

次は「インシデントメトリクス」です。インシデント管理の効果を定量的に測定する指標について学びましょう。


推定読了時間: 30分