演習：予防的インシデント検知システムを設計しよう

ストーリー

田

田中VPoE

異常検知、アラート設計、AIOps、インシデント相関分析 — 4つの領域を学んだ。これらを統合して、TaskFlow社の予防的インシデント検知システムを設計してもらう

あなた

現状のアラート体制を全面的に刷新するんですね

あ

田

田中VPoE

そうだ。月間3,200件、偽陽性率94%の現状から、「少数精鋭のアラートで高い検知率を実現する」体制への変革だ。ただし一気に変えるのではなく、段階的な移行計画も含めて設計してくれ

ミッション概要

項目	内容
演習タイトル	予防的インシデント検知システム設計書
想定時間	90分
成果物	検知システム設計書（異常検知 + アラート体系 + 相関分析 + AIOps + 改善計画）
対象組織	TaskFlow株式会社（前Stepと同一）

前提条件

現状のアラート状況

アラート統計（直近3ヶ月平均）:

月間アラート発報数:     3,200件
  内訳:
    Tier 1サービス:     800件（25%）
    Tier 2サービス:     1,200件（37.5%）
    Tier 3サービス:     900件（28.1%）
    Tier 4サービス:     300件（9.4%）

対応率:                 6%（200件/3,200件）
偽陽性率:               94%（3,000件/3,200件）

アラートタイプ:
  静的閾値（CPU/メモリ）:    1,800件（56%）
  エラーレート:              600件（19%）
  ヘルスチェック失敗:        400件（12.5%）
  ディスク容量:              200件（6.3%）
  その他:                    200件（6.3%）

偽陽性の主な原因:
  1. デプロイ直後の一時的スパイク:   40%
  2. 曜日/時間帯の正常変動:        30%
  3. フラッピング（閾値付近の振動）: 20%
  4. 重複アラート:                  10%

インシデント検知状況

指標	値
月間インシデント数	8件
アラートで検知	5.5件（69%）
顧客報告で検知	2.5件（31%）
平均MTTD（検知時間）	25分
平均MTTR（復旧時間）	3.5時間
複数チーム関与	46%

Mission 1: アラート体系の再設計

要件

以下を設計してください。

現状アラートの棚卸しと分類（残す/修正/削除の判定）
新アラート体系（SLOベース + 異常検知ベース）
ティア別アラートポリシー（通知チャネル、応答時間、エスカレーション）

解答例

アラート棚卸し

現在のアラートカテゴリ	月間件数	判定	理由
静的閾値（CPU/メモリ）	1,800	大幅削減	症状ベースに転換。インフラ閾値は動的閾値に移行
エラーレート	600	修正	SLOバーンレートアラートに統合
ヘルスチェック失敗	400	修正	一時的失敗のフィルタリング追加（3回連続で発報）
ディスク容量	200	修正	予測ベース（72時間以内に枯渇する場合のみ）に変更
その他	200	精査	個別に有用性を評価

新アラート体系

Tier 1サービス（API Gateway, Payment Service）:

アラート名	タイプ	条件	分類
SLO Critical Burn	SLOベース	1hバーンレート>14.4 AND 5mバーンレート>14.4	ページ
SLO High Burn	SLOベース	6hバーンレート>6 AND 30mバーンレート>6	ページ
SLO Medium Burn	SLOベース	1dバーンレート>3 AND 2hバーンレート>3	チケット
Anomaly Detection	異常検知	季節性分解で3σ逸脱	チケット
Latency Degradation	異常検知	P99が動的ベースラインの2倍超	ページ
Dependency Failure	トポロジカル	クリティカル依存先のエラー率急増	ページ

Tier 2サービス（Task, Project, Auth, Notification）:

アラート名	タイプ	条件	分類
SLO High Burn	SLOベース	6hバーンレート>6 AND 30mバーンレート>6	ページ
SLO Medium Burn	SLOベース	1dバーンレート>3 AND 2hバーンレート>3	チケット
SLO Low Burn	SLOベース	3dバーンレート>1	情報
Error Spike	異常検知	エラーレートが移動平均の3σ超	チケット

Tier 3/4サービス:

アラート名	タイプ	条件	分類
SLO Medium Burn	SLOベース	1dバーンレート>3	チケット
Service Down	静的閾値	可用性0%が5分継続	ページ

新体系の想定アラート数

カテゴリ	月間想定件数	削減率
Tier 1	80件	-90%
Tier 2	120件	-90%
Tier 3	60件	-93%
Tier 4	20件	-93%
合計	280件	-91%

Mission 2: インシデント相関分析システムの設計

要件

以下を設計してください。

自動相関分析パイプライン（検知→分析→通知の自動化フロー）
インシデントコマンドシステム（役割定義とエスカレーション）
ポストモーテムプロセス（テンプレートと改善サイクル）

解答例

自動相関分析パイプライン

検知フェーズ（自動、2分以内）:
  1. アラート発報
  2. 同一サービスの重複アラートを集約
  3. 依存関係グラフに基づき関連サービスのアラートを統合
  4. 相関分析の実行:
     a. 時間的相関: 前後30分のイベントタイムライン生成
     b. 変更相関: 直前2時間のデプロイ/設定変更を検出
     c. トポロジカル相関: 影響サービスの特定

分析結果パッケージ:
  ├── インシデントサマリー（影響範囲、重大度）
  ├── イベントタイムライン（自動生成）
  ├── 推定根本原因（変更相関で特定した候補）
  ├── 影響を受けるサービスとSLO状態
  ├── 関連ダッシュボードリンク
  └── 推奨ランブック

インシデントコマンドシステム

重大度	基準	IC	エスカレーション
SEV1	Tier 1サービスの全面障害、SLA違反リスク	SREリード	即時: VPoE、CTO
SEV2	Tier 1部分障害 or Tier 2全面障害	オンコールSRE	15分: SREリード
SEV3	Tier 2部分障害 or Tier 3全面障害	サービスオーナー	1時間: SREリード
SEV4	Tier 3部分障害 or Tier 4障害	サービスオーナー	翌営業日レビュー

ポストモーテムテンプレート

セクション	内容
インシデント概要	日時、影響範囲、重大度、MTTD/MTTR
タイムライン	自動生成 + 手動補完
根本原因	直接原因と寄与要因
影響分析	ユーザー影響数、エラーバジェット消費量、ビジネス影響
対応の評価	うまくいったこと、改善すべきこと
アクションアイテム	再発防止策（オーナー + 期限付き）
可観測性改善	このインシデントで判明したモニタリングのギャップ

Mission 3: AIOps導入計画と改善ロードマップ

要件

以下を設計してください。

AIOps導入のフェーズ計画（12ヶ月ロードマップ）
KPI設定（各フェーズの成功指標）
ROI計算（投資と期待効果の定量化）

解答例

AIOps導入ロードマップ

フェーズ	期間	施策	ツール
Phase 1	月1-3	アラート棚卸し、SLOベースアラート導入、基本的な相関分析	Datadog SLO Monitor、PagerDuty Event Intelligence
Phase 2	月4-6	動的異常検知導入、インシデント自動相関、ランブック自動提示	Datadog Watchdog、PagerDuty AIOps
Phase 3	月7-9	予測型アラート、キャパシティ予測、変更影響分析の自動化	Datadog Forecasts、自前ML
Phase 4	月10-12	自動修復（Pod再起動、スケールアウト）、カナリア自動判定	Kubernetes Operator、Argo Rollouts

KPI設定

指標	現状	Phase 1	Phase 2	Phase 3	Phase 4
月間アラート数	3,200	800	400	300	250
偽陽性率	94%	40%	20%	15%	10%
MTTD	25分	15分	8分	5分	3分
MTTR	3.5時間	2時間	1時間	40分	30分
顧客報告率	31%	15%	8%	5%	3%
予防的検知率	0%	5%	15%	25%	35%
自動解決率	0%	0%	0%	5%	15%

ROI計算

投資:

項目	年額
PagerDuty AIOps追加ライセンス	300万円
Datadog追加機能（Watchdog, Forecasts）	200万円
自動修復基盤の開発工数	600万円
教育・トレーニング	150万円
合計	1,250万円

効果:

項目	年間効果
MTTR短縮（3.5h→30min）による人件費削減	1,500万円
アラートノイズ削減によるオンコール負荷軽減	600万円
顧客報告インシデント削減による信頼性向上	800万円
予防的検知によるインシデント影響最小化	400万円
合計	3,300万円

年間ROI: +2,050万円 投資回収期間: 約5ヶ月

達成度チェック

観点	達成基準
アラート体系	SLOベースと異常検知ベースのアラートがティア別に定義されている
ノイズ削減	現状の偽陽性率94%を大幅に削減する具体的な施策が示されている
相関分析	時間的・トポロジカル・変更の3観点による相関分析パイプラインが設計されている
インシデント対応	重大度別のインシデントコマンドとエスカレーションが定義されている
AIOps計画	段階的な導入ロードマップとKPIが設定されている
ROI	投資と効果が定量的に示され、投資回収期間が算出されている

推定所要時間: 90分