EXERCISE 90分

ストーリー

田中VPoE
異常検知、アラート設計、AIOps、インシデント相関分析 — 4つの領域を学んだ。これらを統合して、TaskFlow社の予防的インシデント検知システムを設計してもらう
あなた
現状のアラート体制を全面的に刷新するんですね
田中VPoE
そうだ。月間3,200件、偽陽性率94%の現状から、「少数精鋭のアラートで高い検知率を実現する」体制への変革だ。ただし一気に変えるのではなく、段階的な移行計画も含めて設計してくれ

ミッション概要

項目内容
演習タイトル予防的インシデント検知システム設計書
想定時間90分
成果物検知システム設計書(異常検知 + アラート体系 + 相関分析 + AIOps + 改善計画)
対象組織TaskFlow株式会社(前Stepと同一)

前提条件

現状のアラート状況

アラート統計(直近3ヶ月平均):

月間アラート発報数:     3,200件
  内訳:
    Tier 1サービス:     800件(25%)
    Tier 2サービス:     1,200件(37.5%)
    Tier 3サービス:     900件(28.1%)
    Tier 4サービス:     300件(9.4%)

対応率:                 6%(200件/3,200件)
偽陽性率:               94%(3,000件/3,200件)

アラートタイプ:
  静的閾値(CPU/メモリ):    1,800件(56%)
  エラーレート:              600件(19%)
  ヘルスチェック失敗:        400件(12.5%)
  ディスク容量:              200件(6.3%)
  その他:                    200件(6.3%)

偽陽性の主な原因:
  1. デプロイ直後の一時的スパイク:   40%
  2. 曜日/時間帯の正常変動:        30%
  3. フラッピング(閾値付近の振動): 20%
  4. 重複アラート:                  10%

インシデント検知状況

指標
月間インシデント数8件
アラートで検知5.5件(69%)
顧客報告で検知2.5件(31%)
平均MTTD(検知時間)25分
平均MTTR(復旧時間)3.5時間
複数チーム関与46%

Mission 1: アラート体系の再設計

要件

以下を設計してください。

  1. 現状アラートの棚卸しと分類(残す/修正/削除の判定)
  2. 新アラート体系(SLOベース + 異常検知ベース)
  3. ティア別アラートポリシー(通知チャネル、応答時間、エスカレーション)
解答例

アラート棚卸し

現在のアラートカテゴリ月間件数判定理由
静的閾値(CPU/メモリ)1,800大幅削減症状ベースに転換。インフラ閾値は動的閾値に移行
エラーレート600修正SLOバーンレートアラートに統合
ヘルスチェック失敗400修正一時的失敗のフィルタリング追加(3回連続で発報)
ディスク容量200修正予測ベース(72時間以内に枯渇する場合のみ)に変更
その他200精査個別に有用性を評価

新アラート体系

Tier 1サービス(API Gateway, Payment Service):

アラート名タイプ条件分類
SLO Critical BurnSLOベース1hバーンレート>14.4 AND 5mバーンレート>14.4ページ
SLO High BurnSLOベース6hバーンレート>6 AND 30mバーンレート>6ページ
SLO Medium BurnSLOベース1dバーンレート>3 AND 2hバーンレート>3チケット
Anomaly Detection異常検知季節性分解で3σ逸脱チケット
Latency Degradation異常検知P99が動的ベースラインの2倍超ページ
Dependency Failureトポロジカルクリティカル依存先のエラー率急増ページ

Tier 2サービス(Task, Project, Auth, Notification):

アラート名タイプ条件分類
SLO High BurnSLOベース6hバーンレート>6 AND 30mバーンレート>6ページ
SLO Medium BurnSLOベース1dバーンレート>3 AND 2hバーンレート>3チケット
SLO Low BurnSLOベース3dバーンレート>1情報
Error Spike異常検知エラーレートが移動平均の3σ超チケット

Tier 3/4サービス:

アラート名タイプ条件分類
SLO Medium BurnSLOベース1dバーンレート>3チケット
Service Down静的閾値可用性0%が5分継続ページ

新体系の想定アラート数

カテゴリ月間想定件数削減率
Tier 180件-90%
Tier 2120件-90%
Tier 360件-93%
Tier 420件-93%
合計280件-91%

Mission 2: インシデント相関分析システムの設計

要件

以下を設計してください。

  1. 自動相関分析パイプライン(検知→分析→通知の自動化フロー)
  2. インシデントコマンドシステム(役割定義とエスカレーション)
  3. ポストモーテムプロセス(テンプレートと改善サイクル)
解答例

自動相関分析パイプライン

検知フェーズ(自動、2分以内):
  1. アラート発報
  2. 同一サービスの重複アラートを集約
  3. 依存関係グラフに基づき関連サービスのアラートを統合
  4. 相関分析の実行:
     a. 時間的相関: 前後30分のイベントタイムライン生成
     b. 変更相関: 直前2時間のデプロイ/設定変更を検出
     c. トポロジカル相関: 影響サービスの特定

分析結果パッケージ:
  ├── インシデントサマリー(影響範囲、重大度)
  ├── イベントタイムライン(自動生成)
  ├── 推定根本原因(変更相関で特定した候補)
  ├── 影響を受けるサービスとSLO状態
  ├── 関連ダッシュボードリンク
  └── 推奨ランブック

インシデントコマンドシステム

重大度基準ICエスカレーション
SEV1Tier 1サービスの全面障害、SLA違反リスクSREリード即時: VPoE、CTO
SEV2Tier 1部分障害 or Tier 2全面障害オンコールSRE15分: SREリード
SEV3Tier 2部分障害 or Tier 3全面障害サービスオーナー1時間: SREリード
SEV4Tier 3部分障害 or Tier 4障害サービスオーナー翌営業日レビュー

ポストモーテムテンプレート

セクション内容
インシデント概要日時、影響範囲、重大度、MTTD/MTTR
タイムライン自動生成 + 手動補完
根本原因直接原因と寄与要因
影響分析ユーザー影響数、エラーバジェット消費量、ビジネス影響
対応の評価うまくいったこと、改善すべきこと
アクションアイテム再発防止策(オーナー + 期限付き)
可観測性改善このインシデントで判明したモニタリングのギャップ

Mission 3: AIOps導入計画と改善ロードマップ

要件

以下を設計してください。

  1. AIOps導入のフェーズ計画(12ヶ月ロードマップ)
  2. KPI設定(各フェーズの成功指標)
  3. ROI計算(投資と期待効果の定量化)
解答例

AIOps導入ロードマップ

フェーズ期間施策ツール
Phase 1月1-3アラート棚卸し、SLOベースアラート導入、基本的な相関分析Datadog SLO Monitor、PagerDuty Event Intelligence
Phase 2月4-6動的異常検知導入、インシデント自動相関、ランブック自動提示Datadog Watchdog、PagerDuty AIOps
Phase 3月7-9予測型アラート、キャパシティ予測、変更影響分析の自動化Datadog Forecasts、自前ML
Phase 4月10-12自動修復(Pod再起動、スケールアウト)、カナリア自動判定Kubernetes Operator、Argo Rollouts

KPI設定

指標現状Phase 1Phase 2Phase 3Phase 4
月間アラート数3,200800400300250
偽陽性率94%40%20%15%10%
MTTD25分15分8分5分3分
MTTR3.5時間2時間1時間40分30分
顧客報告率31%15%8%5%3%
予防的検知率0%5%15%25%35%
自動解決率0%0%0%5%15%

ROI計算

投資:

項目年額
PagerDuty AIOps追加ライセンス300万円
Datadog追加機能(Watchdog, Forecasts)200万円
自動修復基盤の開発工数600万円
教育・トレーニング150万円
合計1,250万円

効果:

項目年間効果
MTTR短縮(3.5h→30min)による人件費削減1,500万円
アラートノイズ削減によるオンコール負荷軽減600万円
顧客報告インシデント削減による信頼性向上800万円
予防的検知によるインシデント影響最小化400万円
合計3,300万円

年間ROI: +2,050万円 投資回収期間: 約5ヶ月


達成度チェック

観点達成基準
アラート体系SLOベースと異常検知ベースのアラートがティア別に定義されている
ノイズ削減現状の偽陽性率94%を大幅に削減する具体的な施策が示されている
相関分析時間的・トポロジカル・変更の3観点による相関分析パイプラインが設計されている
インシデント対応重大度別のインシデントコマンドとエスカレーションが定義されている
AIOps計画段階的な導入ロードマップとKPIが設定されている
ROI投資と効果が定量的に示され、投資回収期間が算出されている

推定所要時間: 90分