LESSON 30分

ストーリー

田中VPoE
ブレームレス文化、ポストモーテムの書き方、アクションアイテムの追跡を学んだ。最後に、インシデント管理全体の効果を測定するメトリクスだ
あなた
SLI/SLOがサービスの健全性を測るように、インシデント管理の健全性を測る指標ですね
田中VPoE
その通りだ。経営層に「SRE組織を作ってよかったのか?」と聞かれたとき、データで答えられなければならない。「なんとなく良くなった気がします」では通用しない
あなた
定量的な効果証明が必要ということですね
田中VPoE
そうだ。特に、SRE導入のROIを示せることが、組織の継続的な投資を引き出す鍵になる

インシデントメトリクスの体系

DORA メトリクスとの関連

DORA指標定義インシデント管理との関連
デプロイ頻度本番へのデプロイ回数頻度が高いほどリスクが分散される
リードタイムコミット→本番デプロイの時間短いほどバグ修正が速い
変更失敗率デプロイが障害を引き起こす割合インシデントの主要な発生源
MTTR障害検知→復旧の時間インシデント対応力の直接指標

インシデント固有のメトリクス

カテゴリメトリクス定義
頻度MTBFMean Time Between Failures(障害間の平均時間)
検知MTTDMean Time To Detect(検知までの平均時間)
応答MTTAMean Time To Acknowledge(応答までの平均時間)
復旧MTTRMean Time To Recover(復旧までの平均時間)

MTTRの分解

MTTR = MTTD + MTTA + MTTI + MTTF

MTTD(検知): 障害発生 → アラート発報
MTTA(応答): アラート発報 → 担当者が応答
MTTI(調査): 応答 → 原因特定
MTTF(修復): 原因特定 → サービス復旧

例:
  MTTD: 3分(アラート検知)
  MTTA: 5分(オンコール応答)
  MTTI: 30分(原因調査)
  MTTF: 10分(ロールバック実行)
  MTTR: 48分

改善の優先度:
  MTTI(調査)が最長 → ランブック整備で短縮
  MTTD(検知)→ アラート設計の改善
  MTTF(修復)→ 自動ロールバックの導入
  MTTA(応答)→ オンコール体制の改善

ダッシュボード設計

エグゼクティブダッシュボード

指標表示形式更新頻度
月間インシデント数(SEV別)棒グラフ(12ヶ月トレンド)日次
MTTR(月間平均)折れ線グラフ(12ヶ月トレンド)日次
エラーバジェット消費率ゲージ(サービス別)リアルタイム
アクションアイテム完了率円グラフ週次
SLO達成率スコアカード(サービス別)日次

SREチームダッシュボード

指標表示形式用途
MTTD/MTTA/MTTI/MTTF内訳スタック棒グラフボトルネック特定
アラートアクション率ゲージアラート品質確認
オンコール負荷(人別)ヒートマップ負荷偏りの検知
根本原因カテゴリ分布パイチャート投資領域の判断
ポストモーテム作成率スコアカードプロセス遵守確認

ROIの計算

インシデントコストの計算式

インシデントコスト = 直接コスト + 間接コスト + 機会損失

直接コスト:
  - 対応者の人件費(時間給 × 対応時間 × 人数)
  - インフラコスト(スケールアップ等の緊急対応)

間接コスト:
  - 開発作業の中断コスト(コンテキストスイッチ)
  - 顧客サポートの増加コスト
  - ブランド・信頼の毀損

機会損失:
  - ダウンタイム中の売上損失
  - 延期された機能開発の価値

簡易計算例:
  SEV1インシデント(2時間のダウンタイム):
  - 対応者3名 × 2時間 × 時給5,000円 = 30,000円
  - 売上損失: 2時間 × 時間あたり売上100万円 = 200万円
  - 開発中断: 5名 × 4時間 × 時給5,000円 = 100,000円
  → 合計: 約213万円

SRE投資のROI

項目金額(年間)
投資
SREエンジニア2名の人件費1,600万円
ツール・インフラ投資400万円
投資合計2,000万円
効果
インシデント数50%削減による損失回避2,400万円
MTTR75%短縮による損失回避1,500万円
運用チーム離職率改善(採用コスト削減)360万円
効果合計4,260万円
ROI113%

メトリクスの活用

四半期レビュー

レビュー項目質問データソース
トレンド分析インシデント数は減少傾向か?インシデント数の推移
対応力評価MTTRは改善しているか?MTTR分解メトリクス
プロセス遵守ポストモーテムは書かれているか?作成率
改善の実行アクションアイテムは完了しているか?完了率
投資効果SRE投資のROIは目標を達成しているか?コスト分析

まとめ

ポイント内容
MTTRの分解MTTD + MTTA + MTTI + MTTF で改善ポイントを特定
ダッシュボードエグゼクティブ向けとSREチーム向けの2層
ROIインシデントコスト削減で投資対効果を証明する

チェックリスト

  • インシデントメトリクスの体系を理解した
  • MTTRの分解と改善アプローチを理解した
  • SRE投資のROI計算方法を理解した

次のステップへ

次は「演習:ポストモーテムプロセスを設計しよう」です。ここまで学んだ知識を活かして、組織のポストモーテムプロセスとインシデントメトリクスダッシュボードを設計しましょう。


推定読了時間: 30分