ストーリー
田
田中VPoE
ブレームレス文化、ポストモーテムの書き方、アクションアイテムの追跡を学んだ。最後に、インシデント管理全体の効果を測定するメトリクスだ
あなた
SLI/SLOがサービスの健全性を測るように、インシデント管理の健全性を測る指標ですね
あ
田
田中VPoE
その通りだ。経営層に「SRE組織を作ってよかったのか?」と聞かれたとき、データで答えられなければならない。「なんとなく良くなった気がします」では通用しない
田
田中VPoE
そうだ。特に、SRE導入のROIを示せることが、組織の継続的な投資を引き出す鍵になる
インシデントメトリクスの体系
DORA メトリクスとの関連
| DORA指標 | 定義 | インシデント管理との関連 |
|---|
| デプロイ頻度 | 本番へのデプロイ回数 | 頻度が高いほどリスクが分散される |
| リードタイム | コミット→本番デプロイの時間 | 短いほどバグ修正が速い |
| 変更失敗率 | デプロイが障害を引き起こす割合 | インシデントの主要な発生源 |
| MTTR | 障害検知→復旧の時間 | インシデント対応力の直接指標 |
インシデント固有のメトリクス
| カテゴリ | メトリクス | 定義 |
|---|
| 頻度 | MTBF | Mean Time Between Failures(障害間の平均時間) |
| 検知 | MTTD | Mean Time To Detect(検知までの平均時間) |
| 応答 | MTTA | Mean Time To Acknowledge(応答までの平均時間) |
| 復旧 | MTTR | Mean Time To Recover(復旧までの平均時間) |
MTTRの分解
MTTR = MTTD + MTTA + MTTI + MTTF
MTTD(検知): 障害発生 → アラート発報
MTTA(応答): アラート発報 → 担当者が応答
MTTI(調査): 応答 → 原因特定
MTTF(修復): 原因特定 → サービス復旧
例:
MTTD: 3分(アラート検知)
MTTA: 5分(オンコール応答)
MTTI: 30分(原因調査)
MTTF: 10分(ロールバック実行)
MTTR: 48分
改善の優先度:
MTTI(調査)が最長 → ランブック整備で短縮
MTTD(検知)→ アラート設計の改善
MTTF(修復)→ 自動ロールバックの導入
MTTA(応答)→ オンコール体制の改善
ダッシュボード設計
エグゼクティブダッシュボード
| 指標 | 表示形式 | 更新頻度 |
|---|
| 月間インシデント数(SEV別) | 棒グラフ(12ヶ月トレンド) | 日次 |
| MTTR(月間平均) | 折れ線グラフ(12ヶ月トレンド) | 日次 |
| エラーバジェット消費率 | ゲージ(サービス別) | リアルタイム |
| アクションアイテム完了率 | 円グラフ | 週次 |
| SLO達成率 | スコアカード(サービス別) | 日次 |
SREチームダッシュボード
| 指標 | 表示形式 | 用途 |
|---|
| MTTD/MTTA/MTTI/MTTF内訳 | スタック棒グラフ | ボトルネック特定 |
| アラートアクション率 | ゲージ | アラート品質確認 |
| オンコール負荷(人別) | ヒートマップ | 負荷偏りの検知 |
| 根本原因カテゴリ分布 | パイチャート | 投資領域の判断 |
| ポストモーテム作成率 | スコアカード | プロセス遵守確認 |
ROIの計算
インシデントコストの計算式
インシデントコスト = 直接コスト + 間接コスト + 機会損失
直接コスト:
- 対応者の人件費(時間給 × 対応時間 × 人数)
- インフラコスト(スケールアップ等の緊急対応)
間接コスト:
- 開発作業の中断コスト(コンテキストスイッチ)
- 顧客サポートの増加コスト
- ブランド・信頼の毀損
機会損失:
- ダウンタイム中の売上損失
- 延期された機能開発の価値
簡易計算例:
SEV1インシデント(2時間のダウンタイム):
- 対応者3名 × 2時間 × 時給5,000円 = 30,000円
- 売上損失: 2時間 × 時間あたり売上100万円 = 200万円
- 開発中断: 5名 × 4時間 × 時給5,000円 = 100,000円
→ 合計: 約213万円
SRE投資のROI
| 項目 | 金額(年間) |
|---|
| 投資 | |
| SREエンジニア2名の人件費 | 1,600万円 |
| ツール・インフラ投資 | 400万円 |
| 投資合計 | 2,000万円 |
| 効果 | |
| インシデント数50%削減による損失回避 | 2,400万円 |
| MTTR75%短縮による損失回避 | 1,500万円 |
| 運用チーム離職率改善(採用コスト削減) | 360万円 |
| 効果合計 | 4,260万円 |
| ROI | 113% |
メトリクスの活用
四半期レビュー
| レビュー項目 | 質問 | データソース |
|---|
| トレンド分析 | インシデント数は減少傾向か? | インシデント数の推移 |
| 対応力評価 | MTTRは改善しているか? | MTTR分解メトリクス |
| プロセス遵守 | ポストモーテムは書かれているか? | 作成率 |
| 改善の実行 | アクションアイテムは完了しているか? | 完了率 |
| 投資効果 | SRE投資のROIは目標を達成しているか? | コスト分析 |
まとめ
| ポイント | 内容 |
|---|
| MTTRの分解 | MTTD + MTTA + MTTI + MTTF で改善ポイントを特定 |
| ダッシュボード | エグゼクティブ向けとSREチーム向けの2層 |
| ROI | インシデントコスト削減で投資対効果を証明する |
チェックリスト
次のステップへ
次は「演習:ポストモーテムプロセスを設計しよう」です。ここまで学んだ知識を活かして、組織のポストモーテムプロセスとインシデントメトリクスダッシュボードを設計しましょう。
推定読了時間: 30分