再発防止策の策定 - L0 カリキュラム

ストーリー

佐

佐藤CTO

根本原因がわかった。次は同じことを二度と起こさない仕組みを作る番だ

佐

佐藤CTO

“気をつける”は対策ではない。システムで防ぐ仕組みを作るんだ

アクションアイテムの分類

優先度マトリクス

優先度	基準	期限	例
P0	同じ障害が今すぐ再発しうる	1週間	緊急パッチ、設定修正
P1	類似の障害リスクが高い	1ヶ月	監視追加、テスト強化
P2	長期的な改善	四半期	アーキテクチャ改善、自動化
P3	あると良い改善	バックログ	ドキュメント整備、ツール改善

良いアクションアイテムの特徴

特徴	良い例	悪い例
具体的	DB接続数の監視アラートを追加する	監視を強化する
測定可能	負荷テストにDB接続数チェックを追加	テストを改善する
担当明確	SREチーム田中が実施	誰かがやる
期限あり	2月28日までに完了	なるべく早く
自動化志向	CI/CDにDB接続数チェックを組み込む	次回から気をつける

再発防止の4つのレベル

Level 4: 発生不可能にする（設計で排除）
  └─ 例: N+1クエリを型レベルで防止するORM制約

Level 3: 自動検知・自動修復する
  └─ 例: DB接続数超過時に自動スケール

Level 2: 自動検知・手動修復する
  └─ 例: DB接続数のアラート + ランブック

Level 1: 手動検知・手動修復する
  └─ 例: 定期的なメトリクスレビュー

目標: できるだけ高いレベルの対策を実施する

エラーバジェットポリシーとの連携

エラーバジェット消費時のアクション

エラーバジェット残量	アクション
75%以上	通常の開発速度
50-75%	信頼性改善タスクの優先度を上げる
25-50%	新機能開発を50%に制限、信頼性改善に注力
25%未満	新機能開発を停止、信頼性改善のみ
枯渇	全チームで信頼性改善に集中

アクションアイテムの追跡

追跡テンプレート

ID	タイトル	優先度	担当	期限	ステータス
AI-001	DB接続数の監視アラート追加	P0	SRE田中	2/21	完了
AI-002	負荷テストにDB接続チェック追加	P1	QA鈴木	3/14	進行中
AI-003	N+1検出のlintルール追加	P1	Dev佐々木	3/14	未着手
AI-004	コネクションプール自動スケール	P2	SRE高橋	4/30	未着手

レビューサイクル

頻度	内容
週次	P0/P1アクションアイテムの進捗確認
月次	全アクションアイテムのレビュー
四半期	再発防止策の有効性評価

まとめ

ポイント	内容
アクションアイテム	具体的・測定可能・担当明確・期限付き
4レベル	「発生不可能にする」を最上位目標とする
エラーバジェット	残量に応じて開発と信頼性のバランスを調整
追跡	定期レビューで完了まで追跡する

次のステップへ

次は演習でインシデント対応を実践します。

推定読了時間: 20分