演習：モニタリング基盤を構築しよう

ストーリー

田

田中VPoE

ログ収集、品質メトリクス、ドリフト検出、アラート設計を学んだ。ここでNetShop社のAIモニタリング基盤を実際に設計してもらう

あなた

全AIシステムを統合的に監視する基盤ですね

あ

田

田中VPoE

そうだ。3つのミッションで、メトリクス設計、アラートルール策定、ダッシュボード設計まで一気通貫で取り組んでくれ

あなた

わかりました。運用チームが本当に使える基盤を設計します

あ

ミッション概要

項目	内容
目標	AIシステムのモニタリング基盤を設計する
所要時間	90分
ミッション数	3つ
使用知識	ログ収集 / 品質メトリクス / ドリフト検出 / アラート設計
評価観点	メトリクスの網羅性、アラートの実用性、ダッシュボードの有用性

Mission 1: メトリクス設計（30分）

タスク

NetShop社の6つのAIシステムに対するメトリクス設計を行ってください。

【メトリクス設計書】

1. 共通メトリクス（全システム共通）:
   | メトリクス | 計算方法 | 収集頻度 | 閾値 |
   |-----------|---------|---------|------|
   | ___ | ___ | ___ | ___ |

2. システム固有メトリクス（3システム分）:
   チャットボット:
   | メトリクス | 計算方法 | 閾値 |
   |-----------|---------|------|
   | ___ | ___ | ___ |

   レコメンドAI: ___
   請求書処理AI: ___

3. ドリフト検出の設計:
   | 対象 | 検出手法 | 基準期間 | 検出頻度 |
   |------|---------|---------|---------|
   | ___ | ___ | ___ | ___ |

解答例を見る

1. 共通メトリクス:
   | メトリクス | 計算方法 | 収集頻度 | 閾値 |
   |-----------|---------|---------|------|
   | エラー率 | エラー数/総リクエスト数 | 1分 | >5% |
   | レイテンシP95 | 95パーセンタイル応答時間 | 1分 | >5000ms |
   | スループット | リクエスト数/分 | 1分 | 通常の50%以下 |
   | トークンコスト | 消費トークン数×単価 | 1時間 | 予算の80%超 |
   | 可用性 | 成功リクエスト/総リクエスト | 5分 | <99.5% |

2. システム固有:
   チャットボット:
   | ハルシネーション率 | LLM-as-Judge自動評価 | <5% |
   | ユーザー満足度(CSAT) | フィードバックボタン | >80% |
   | エスカレーション率 | 人間に転送された割合 | <20% |

   レコメンドAI:
   | CTR | クリック数/表示数 | >3% |
   | カバレッジ | 推薦された商品の多様性 | >60% |
   | セレンディピティ | 予想外の有用な推薦の割合 | >10% |

   請求書処理AI:
   | フィールド抽出精度 | 正解ラベルとの一致率 | >95% |
   | 自動処理率 | 人的介入なしの割合 | >70% |
   | クロスチェック合格率 | 金額整合性チェックの合格率 | >98% |

3. ドリフト検出:
   | 対象 | 手法 | 基準期間 | 頻度 |
   |------|------|---------|------|
   | チャットボット入力 | 埋め込みドリフト | 過去30日 | 日次 |
   | レコメンドクリック | PSI | 過去7日 | 日次 |
   | 請求書フォーマット | 画像特徴量PSI | 過去30日 | 週次 |

Mission 2: アラートルール策定（30分）

タスク

【アラートルール設計書】

1. アラートルール一覧（最低10ルール）:
   | ルール名 | メトリクス | 条件 | レベル | 通知先 |
   |---------|-----------|------|--------|--------|
   | ___ | ___ | ___ | ___ | ___ |

2. エスカレーションフロー:
   ___

3. ランブック（CRITICALアラート1件分）:
   ___

4. アラート疲れ防止策:
   ___

解答例を見る

1. アラートルール:
   | ルール名 | メトリクス | 条件 | レベル | 通知先 |
   |---------|-----------|------|--------|--------|
   | 全体エラー率 | error_rate | >10% 3回連続 | CRITICAL | PagerDuty |
   | 全体エラー率 | error_rate | >5% 3回連続 | ERROR | Slack+Email |
   | レイテンシ超過 | latency_p95 | >10s 2回連続 | ERROR | Slack |
   | コスト急増 | hourly_cost | 前時間比200% | WARNING | Slack+Finance |
   | チャットボット品質 | quality_score | <0.6 | ERROR | Slack+Email |
   | ハルシネーション急増 | hallucination_rate | >10% | ERROR | Slack |
   | 請求書精度低下 | extraction_accuracy | <90% | ERROR | Slack+経理 |
   | レコメンドCTR低下 | ctr | 前週比50%低下 | WARNING | Slack |
   | データドリフト | psi_score | >0.2 | WARNING | Slack |
   | API可用性 | availability | <99% 5分間 | CRITICAL | PagerDuty |
   | 日次コスト超過 | daily_cost | 予算の90%超 | WARNING | Email+Finance |

2. エスカレーション:
   CRITICAL: 0分→PagerDuty(オンコール)→15分未応答→チームリーダー→
   30分未応答→CTO
   ERROR: 0分→Slack通知→4時間未対応→チームリーダーメンション
   WARNING: Slack通知→翌営業日までに確認

3. ランブック（全体エラー率CRITICAL）:
   初期確認(5分): エラー種別の内訳確認、影響システムの特定
   切り分け(15分): 外部API状態確認、インフラ確認、直近変更確認
   対処: APIダウン→フォールバック切替 / インフラ→スケーリング /
   原因不明→該当機能の一時停止+エスカレーション
   復旧確認: エラー率5%以下に回復、影響リクエストの再処理判断

4. 防止策:
   - 連続N回超過で初めて発報（スパイク除外）
   - 同一アラートの重複抑制（30分間隔）
   - 低優先度アラートは日次ダイジェストに集約
   - 月次でアラート発報頻度をレビューし、ノイジーなルールを調整

Mission 3: ダッシュボード設計（30分）

タスク

【ダッシュボード設計書】

1. ダッシュボード一覧:
   | 名前 | 対象者 | 主要パネル | 更新頻度 |
   |------|--------|----------|---------|
   | ___ | ___ | ___ | ___ |

2. オペレーションダッシュボードの詳細設計:
   パネル配置図: ___
   各パネルの仕様: ___

3. 技術スタック:
   | コンポーネント | 技術選定 | 選定理由 |
   |-------------|---------|---------|
   | ___ | ___ | ___ |

解答例を見る

1. ダッシュボード一覧:
   | 名前 | 対象者 | 主要パネル | 更新 |
   |------|--------|----------|------|
   | AI Executive | 経営層 | 月次コスト、KPIサマリ、インシデント | 日次 |
   | AI Operations | 運用チーム | リアルタイムメトリクス、アラート | 1分 |
   | AI Quality | 品質チーム | 品質スコア、ドリフト、バイアス | 1時間 |
   | AI Cost | 経理 | コスト内訳、予算消化率、予測 | 1時間 |

2. オペレーションダッシュボード:
   上段: サービス正常性マップ（6システムのUp/Down一覧）
   中段左: エラー率の時系列グラフ（直近24時間、閾値ライン付き）
   中段右: レイテンシP50/P95/P99（直近24時間）
   下段左: アクティブアラート一覧（レベル、発生時刻、対象システム）
   下段右: スループット（リクエスト/分の時系列）

3. 技術スタック:
   | コンポーネント | 技術 | 理由 |
   |-------------|------|------|
   | メトリクス収集 | CloudWatch + カスタムメトリクス | AWS統合 |
   | ログ集約 | CloudWatch Logs + Athena | S3連携 |
   | 可視化 | Grafana | 柔軟なダッシュボード |
   | アラート | CloudWatch Alarms + PagerDuty | 段階的通知 |
   | 長期分析 | S3 + Athena + QuickSight | コスト効率 |

達成度チェック

評価項目	A（優秀）	B（合格）	C（要改善）
メトリクス	共通+固有を網羅的に設計	主要メトリクスを定義	メトリクスが不足
アラート	段階的で実用的なルール	基本的なルールを定義	ルールが不適切
ダッシュボード	対象者別の階層設計	基本的なパネルを配置	可視化が不十分

推定所要時間: 90分