LESSON 20分

ストーリー

佐藤CTO
根本原因がわかった。次は同じことを二度と起こさない仕組みを作る番だ
佐藤CTO
“気をつける”は対策ではない。システムで防ぐ仕組みを作るんだ

アクションアイテムの分類

優先度マトリクス

優先度基準期限
P0同じ障害が今すぐ再発しうる1週間緊急パッチ、設定修正
P1類似の障害リスクが高い1ヶ月監視追加、テスト強化
P2長期的な改善四半期アーキテクチャ改善、自動化
P3あると良い改善バックログドキュメント整備、ツール改善

良いアクションアイテムの特徴

特徴良い例悪い例
具体的DB接続数の監視アラートを追加する監視を強化する
測定可能負荷テストにDB接続数チェックを追加テストを改善する
担当明確SREチーム田中が実施誰かがやる
期限あり2月28日までに完了なるべく早く
自動化志向CI/CDにDB接続数チェックを組み込む次回から気をつける

再発防止の4つのレベル

Level 4: 発生不可能にする(設計で排除)
  └─ 例: N+1クエリを型レベルで防止するORM制約

Level 3: 自動検知・自動修復する
  └─ 例: DB接続数超過時に自動スケール

Level 2: 自動検知・手動修復する
  └─ 例: DB接続数のアラート + ランブック

Level 1: 手動検知・手動修復する
  └─ 例: 定期的なメトリクスレビュー

目標: できるだけ高いレベルの対策を実施する


エラーバジェットポリシーとの連携

エラーバジェット消費時のアクション

エラーバジェット残量アクション
75%以上通常の開発速度
50-75%信頼性改善タスクの優先度を上げる
25-50%新機能開発を50%に制限、信頼性改善に注力
25%未満新機能開発を停止、信頼性改善のみ
枯渇全チームで信頼性改善に集中

アクションアイテムの追跡

追跡テンプレート

IDタイトル優先度担当期限ステータス
AI-001DB接続数の監視アラート追加P0SRE田中2/21完了
AI-002負荷テストにDB接続チェック追加P1QA鈴木3/14進行中
AI-003N+1検出のlintルール追加P1Dev佐々木3/14未着手
AI-004コネクションプール自動スケールP2SRE高橋4/30未着手

レビューサイクル

頻度内容
週次P0/P1アクションアイテムの進捗確認
月次全アクションアイテムのレビュー
四半期再発防止策の有効性評価

まとめ

ポイント内容
アクションアイテム具体的・測定可能・担当明確・期限付き
4レベル「発生不可能にする」を最上位目標とする
エラーバジェット残量に応じて開発と信頼性のバランスを調整
追跡定期レビューで完了まで追跡する

次のステップへ

次は演習でインシデント対応を実践します。


推定読了時間: 20分