ストーリー
田
田中VPoE
異常検知、アラート設計、AIOps、インシデント相関分析 — 4つの領域を学んだ。これらを統合して、TaskFlow社の予防的インシデント検知システムを設計してもらう
あなた
現状のアラート体制を全面的に刷新するんですね
あ
田
田中VPoE
そうだ。月間3,200件、偽陽性率94%の現状から、「少数精鋭のアラートで高い検知率を実現する」体制への変革だ。ただし一気に変えるのではなく、段階的な移行計画も含めて設計してくれ
ミッション概要
| 項目 | 内容 |
|---|
| 演習タイトル | 予防的インシデント検知システム設計書 |
| 想定時間 | 90分 |
| 成果物 | 検知システム設計書(異常検知 + アラート体系 + 相関分析 + AIOps + 改善計画) |
| 対象組織 | TaskFlow株式会社(前Stepと同一) |
前提条件
現状のアラート状況
アラート統計(直近3ヶ月平均):
月間アラート発報数: 3,200件
内訳:
Tier 1サービス: 800件(25%)
Tier 2サービス: 1,200件(37.5%)
Tier 3サービス: 900件(28.1%)
Tier 4サービス: 300件(9.4%)
対応率: 6%(200件/3,200件)
偽陽性率: 94%(3,000件/3,200件)
アラートタイプ:
静的閾値(CPU/メモリ): 1,800件(56%)
エラーレート: 600件(19%)
ヘルスチェック失敗: 400件(12.5%)
ディスク容量: 200件(6.3%)
その他: 200件(6.3%)
偽陽性の主な原因:
1. デプロイ直後の一時的スパイク: 40%
2. 曜日/時間帯の正常変動: 30%
3. フラッピング(閾値付近の振動): 20%
4. 重複アラート: 10%
インシデント検知状況
| 指標 | 値 |
|---|
| 月間インシデント数 | 8件 |
| アラートで検知 | 5.5件(69%) |
| 顧客報告で検知 | 2.5件(31%) |
| 平均MTTD(検知時間) | 25分 |
| 平均MTTR(復旧時間) | 3.5時間 |
| 複数チーム関与 | 46% |
Mission 1: アラート体系の再設計
要件
以下を設計してください。
- 現状アラートの棚卸しと分類(残す/修正/削除の判定)
- 新アラート体系(SLOベース + 異常検知ベース)
- ティア別アラートポリシー(通知チャネル、応答時間、エスカレーション)
解答例
アラート棚卸し
| 現在のアラートカテゴリ | 月間件数 | 判定 | 理由 |
|---|
| 静的閾値(CPU/メモリ) | 1,800 | 大幅削減 | 症状ベースに転換。インフラ閾値は動的閾値に移行 |
| エラーレート | 600 | 修正 | SLOバーンレートアラートに統合 |
| ヘルスチェック失敗 | 400 | 修正 | 一時的失敗のフィルタリング追加(3回連続で発報) |
| ディスク容量 | 200 | 修正 | 予測ベース(72時間以内に枯渇する場合のみ)に変更 |
| その他 | 200 | 精査 | 個別に有用性を評価 |
新アラート体系
Tier 1サービス(API Gateway, Payment Service):
| アラート名 | タイプ | 条件 | 分類 |
|---|
| SLO Critical Burn | SLOベース | 1hバーンレート>14.4 AND 5mバーンレート>14.4 | ページ |
| SLO High Burn | SLOベース | 6hバーンレート>6 AND 30mバーンレート>6 | ページ |
| SLO Medium Burn | SLOベース | 1dバーンレート>3 AND 2hバーンレート>3 | チケット |
| Anomaly Detection | 異常検知 | 季節性分解で3σ逸脱 | チケット |
| Latency Degradation | 異常検知 | P99が動的ベースラインの2倍超 | ページ |
| Dependency Failure | トポロジカル | クリティカル依存先のエラー率急増 | ページ |
Tier 2サービス(Task, Project, Auth, Notification):
| アラート名 | タイプ | 条件 | 分類 |
|---|
| SLO High Burn | SLOベース | 6hバーンレート>6 AND 30mバーンレート>6 | ページ |
| SLO Medium Burn | SLOベース | 1dバーンレート>3 AND 2hバーンレート>3 | チケット |
| SLO Low Burn | SLOベース | 3dバーンレート>1 | 情報 |
| Error Spike | 異常検知 | エラーレートが移動平均の3σ超 | チケット |
Tier 3/4サービス:
| アラート名 | タイプ | 条件 | 分類 |
|---|
| SLO Medium Burn | SLOベース | 1dバーンレート>3 | チケット |
| Service Down | 静的閾値 | 可用性0%が5分継続 | ページ |
新体系の想定アラート数
| カテゴリ | 月間想定件数 | 削減率 |
|---|
| Tier 1 | 80件 | -90% |
| Tier 2 | 120件 | -90% |
| Tier 3 | 60件 | -93% |
| Tier 4 | 20件 | -93% |
| 合計 | 280件 | -91% |
Mission 2: インシデント相関分析システムの設計
要件
以下を設計してください。
- 自動相関分析パイプライン(検知→分析→通知の自動化フロー)
- インシデントコマンドシステム(役割定義とエスカレーション)
- ポストモーテムプロセス(テンプレートと改善サイクル)
解答例
自動相関分析パイプライン
検知フェーズ(自動、2分以内):
1. アラート発報
2. 同一サービスの重複アラートを集約
3. 依存関係グラフに基づき関連サービスのアラートを統合
4. 相関分析の実行:
a. 時間的相関: 前後30分のイベントタイムライン生成
b. 変更相関: 直前2時間のデプロイ/設定変更を検出
c. トポロジカル相関: 影響サービスの特定
分析結果パッケージ:
├── インシデントサマリー(影響範囲、重大度)
├── イベントタイムライン(自動生成)
├── 推定根本原因(変更相関で特定した候補)
├── 影響を受けるサービスとSLO状態
├── 関連ダッシュボードリンク
└── 推奨ランブック
インシデントコマンドシステム
| 重大度 | 基準 | IC | エスカレーション |
|---|
| SEV1 | Tier 1サービスの全面障害、SLA違反リスク | SREリード | 即時: VPoE、CTO |
| SEV2 | Tier 1部分障害 or Tier 2全面障害 | オンコールSRE | 15分: SREリード |
| SEV3 | Tier 2部分障害 or Tier 3全面障害 | サービスオーナー | 1時間: SREリード |
| SEV4 | Tier 3部分障害 or Tier 4障害 | サービスオーナー | 翌営業日レビュー |
ポストモーテムテンプレート
| セクション | 内容 |
|---|
| インシデント概要 | 日時、影響範囲、重大度、MTTD/MTTR |
| タイムライン | 自動生成 + 手動補完 |
| 根本原因 | 直接原因と寄与要因 |
| 影響分析 | ユーザー影響数、エラーバジェット消費量、ビジネス影響 |
| 対応の評価 | うまくいったこと、改善すべきこと |
| アクションアイテム | 再発防止策(オーナー + 期限付き) |
| 可観測性改善 | このインシデントで判明したモニタリングのギャップ |
Mission 3: AIOps導入計画と改善ロードマップ
要件
以下を設計してください。
- AIOps導入のフェーズ計画(12ヶ月ロードマップ)
- KPI設定(各フェーズの成功指標)
- ROI計算(投資と期待効果の定量化)
解答例
AIOps導入ロードマップ
| フェーズ | 期間 | 施策 | ツール |
|---|
| Phase 1 | 月1-3 | アラート棚卸し、SLOベースアラート導入、基本的な相関分析 | Datadog SLO Monitor、PagerDuty Event Intelligence |
| Phase 2 | 月4-6 | 動的異常検知導入、インシデント自動相関、ランブック自動提示 | Datadog Watchdog、PagerDuty AIOps |
| Phase 3 | 月7-9 | 予測型アラート、キャパシティ予測、変更影響分析の自動化 | Datadog Forecasts、自前ML |
| Phase 4 | 月10-12 | 自動修復(Pod再起動、スケールアウト)、カナリア自動判定 | Kubernetes Operator、Argo Rollouts |
KPI設定
| 指標 | 現状 | Phase 1 | Phase 2 | Phase 3 | Phase 4 |
|---|
| 月間アラート数 | 3,200 | 800 | 400 | 300 | 250 |
| 偽陽性率 | 94% | 40% | 20% | 15% | 10% |
| MTTD | 25分 | 15分 | 8分 | 5分 | 3分 |
| MTTR | 3.5時間 | 2時間 | 1時間 | 40分 | 30分 |
| 顧客報告率 | 31% | 15% | 8% | 5% | 3% |
| 予防的検知率 | 0% | 5% | 15% | 25% | 35% |
| 自動解決率 | 0% | 0% | 0% | 5% | 15% |
ROI計算
投資:
| 項目 | 年額 |
|---|
| PagerDuty AIOps追加ライセンス | 300万円 |
| Datadog追加機能(Watchdog, Forecasts) | 200万円 |
| 自動修復基盤の開発工数 | 600万円 |
| 教育・トレーニング | 150万円 |
| 合計 | 1,250万円 |
効果:
| 項目 | 年間効果 |
|---|
| MTTR短縮(3.5h→30min)による人件費削減 | 1,500万円 |
| アラートノイズ削減によるオンコール負荷軽減 | 600万円 |
| 顧客報告インシデント削減による信頼性向上 | 800万円 |
| 予防的検知によるインシデント影響最小化 | 400万円 |
| 合計 | 3,300万円 |
年間ROI: +2,050万円
投資回収期間: 約5ヶ月
達成度チェック
| 観点 | 達成基準 |
|---|
| アラート体系 | SLOベースと異常検知ベースのアラートがティア別に定義されている |
| ノイズ削減 | 現状の偽陽性率94%を大幅に削減する具体的な施策が示されている |
| 相関分析 | 時間的・トポロジカル・変更の3観点による相関分析パイプラインが設計されている |
| インシデント対応 | 重大度別のインシデントコマンドとエスカレーションが定義されている |
| AIOps計画 | 段階的な導入ロードマップとKPIが設定されている |
| ROI | 投資と効果が定量的に示され、投資回収期間が算出されている |
推定所要時間: 90分