EXERCISE 90分

ストーリー

田中VPoE
ログ収集、品質メトリクス、ドリフト検出、アラート設計を学んだ。ここでNetShop社のAIモニタリング基盤を実際に設計してもらう
あなた
全AIシステムを統合的に監視する基盤ですね
田中VPoE
そうだ。3つのミッションで、メトリクス設計、アラートルール策定、ダッシュボード設計まで一気通貫で取り組んでくれ
あなた
わかりました。運用チームが本当に使える基盤を設計します

ミッション概要

項目内容
目標AIシステムのモニタリング基盤を設計する
所要時間90分
ミッション数3つ
使用知識ログ収集 / 品質メトリクス / ドリフト検出 / アラート設計
評価観点メトリクスの網羅性、アラートの実用性、ダッシュボードの有用性

Mission 1: メトリクス設計(30分)

タスク

NetShop社の6つのAIシステムに対するメトリクス設計を行ってください。

【メトリクス設計書】

1. 共通メトリクス(全システム共通):
   | メトリクス | 計算方法 | 収集頻度 | 閾値 |
   |-----------|---------|---------|------|
   | ___ | ___ | ___ | ___ |

2. システム固有メトリクス(3システム分):
   チャットボット:
   | メトリクス | 計算方法 | 閾値 |
   |-----------|---------|------|
   | ___ | ___ | ___ |

   レコメンドAI: ___
   請求書処理AI: ___

3. ドリフト検出の設計:
   | 対象 | 検出手法 | 基準期間 | 検出頻度 |
   |------|---------|---------|---------|
   | ___ | ___ | ___ | ___ |
解答例を見る
1. 共通メトリクス:
   | メトリクス | 計算方法 | 収集頻度 | 閾値 |
   |-----------|---------|---------|------|
   | エラー率 | エラー数/総リクエスト数 | 1分 | >5% |
   | レイテンシP95 | 95パーセンタイル応答時間 | 1分 | >5000ms |
   | スループット | リクエスト数/分 | 1分 | 通常の50%以下 |
   | トークンコスト | 消費トークン数×単価 | 1時間 | 予算の80%超 |
   | 可用性 | 成功リクエスト/総リクエスト | 5分 | <99.5% |

2. システム固有:
   チャットボット:
   | ハルシネーション率 | LLM-as-Judge自動評価 | <5% |
   | ユーザー満足度(CSAT) | フィードバックボタン | >80% |
   | エスカレーション率 | 人間に転送された割合 | <20% |

   レコメンドAI:
   | CTR | クリック数/表示数 | >3% |
   | カバレッジ | 推薦された商品の多様性 | >60% |
   | セレンディピティ | 予想外の有用な推薦の割合 | >10% |

   請求書処理AI:
   | フィールド抽出精度 | 正解ラベルとの一致率 | >95% |
   | 自動処理率 | 人的介入なしの割合 | >70% |
   | クロスチェック合格率 | 金額整合性チェックの合格率 | >98% |

3. ドリフト検出:
   | 対象 | 手法 | 基準期間 | 頻度 |
   |------|------|---------|------|
   | チャットボット入力 | 埋め込みドリフト | 過去30日 | 日次 |
   | レコメンドクリック | PSI | 過去7日 | 日次 |
   | 請求書フォーマット | 画像特徴量PSI | 過去30日 | 週次 |

Mission 2: アラートルール策定(30分)

タスク

【アラートルール設計書】

1. アラートルール一覧(最低10ルール):
   | ルール名 | メトリクス | 条件 | レベル | 通知先 |
   |---------|-----------|------|--------|--------|
   | ___ | ___ | ___ | ___ | ___ |

2. エスカレーションフロー:
   ___

3. ランブック(CRITICALアラート1件分):
   ___

4. アラート疲れ防止策:
   ___
解答例を見る
1. アラートルール:
   | ルール名 | メトリクス | 条件 | レベル | 通知先 |
   |---------|-----------|------|--------|--------|
   | 全体エラー率 | error_rate | >10% 3回連続 | CRITICAL | PagerDuty |
   | 全体エラー率 | error_rate | >5% 3回連続 | ERROR | Slack+Email |
   | レイテンシ超過 | latency_p95 | >10s 2回連続 | ERROR | Slack |
   | コスト急増 | hourly_cost | 前時間比200% | WARNING | Slack+Finance |
   | チャットボット品質 | quality_score | <0.6 | ERROR | Slack+Email |
   | ハルシネーション急増 | hallucination_rate | >10% | ERROR | Slack |
   | 請求書精度低下 | extraction_accuracy | <90% | ERROR | Slack+経理 |
   | レコメンドCTR低下 | ctr | 前週比50%低下 | WARNING | Slack |
   | データドリフト | psi_score | >0.2 | WARNING | Slack |
   | API可用性 | availability | <99% 5分間 | CRITICAL | PagerDuty |
   | 日次コスト超過 | daily_cost | 予算の90%超 | WARNING | Email+Finance |

2. エスカレーション:
   CRITICAL: 0分→PagerDuty(オンコール)→15分未応答→チームリーダー→
   30分未応答→CTO
   ERROR: 0分→Slack通知→4時間未対応→チームリーダーメンション
   WARNING: Slack通知→翌営業日までに確認

3. ランブック(全体エラー率CRITICAL):
   初期確認(5分): エラー種別の内訳確認、影響システムの特定
   切り分け(15分): 外部API状態確認、インフラ確認、直近変更確認
   対処: APIダウン→フォールバック切替 / インフラ→スケーリング /
   原因不明→該当機能の一時停止+エスカレーション
   復旧確認: エラー率5%以下に回復、影響リクエストの再処理判断

4. 防止策:
   - 連続N回超過で初めて発報(スパイク除外)
   - 同一アラートの重複抑制(30分間隔)
   - 低優先度アラートは日次ダイジェストに集約
   - 月次でアラート発報頻度をレビューし、ノイジーなルールを調整

Mission 3: ダッシュボード設計(30分)

タスク

【ダッシュボード設計書】

1. ダッシュボード一覧:
   | 名前 | 対象者 | 主要パネル | 更新頻度 |
   |------|--------|----------|---------|
   | ___ | ___ | ___ | ___ |

2. オペレーションダッシュボードの詳細設計:
   パネル配置図: ___
   各パネルの仕様: ___

3. 技術スタック:
   | コンポーネント | 技術選定 | 選定理由 |
   |-------------|---------|---------|
   | ___ | ___ | ___ |
解答例を見る
1. ダッシュボード一覧:
   | 名前 | 対象者 | 主要パネル | 更新 |
   |------|--------|----------|------|
   | AI Executive | 経営層 | 月次コスト、KPIサマリ、インシデント | 日次 |
   | AI Operations | 運用チーム | リアルタイムメトリクス、アラート | 1分 |
   | AI Quality | 品質チーム | 品質スコア、ドリフト、バイアス | 1時間 |
   | AI Cost | 経理 | コスト内訳、予算消化率、予測 | 1時間 |

2. オペレーションダッシュボード:
   上段: サービス正常性マップ(6システムのUp/Down一覧)
   中段左: エラー率の時系列グラフ(直近24時間、閾値ライン付き)
   中段右: レイテンシP50/P95/P99(直近24時間)
   下段左: アクティブアラート一覧(レベル、発生時刻、対象システム)
   下段右: スループット(リクエスト/分の時系列)

3. 技術スタック:
   | コンポーネント | 技術 | 理由 |
   |-------------|------|------|
   | メトリクス収集 | CloudWatch + カスタムメトリクス | AWS統合 |
   | ログ集約 | CloudWatch Logs + Athena | S3連携 |
   | 可視化 | Grafana | 柔軟なダッシュボード |
   | アラート | CloudWatch Alarms + PagerDuty | 段階的通知 |
   | 長期分析 | S3 + Athena + QuickSight | コスト効率 |

達成度チェック

評価項目A(優秀)B(合格)C(要改善)
メトリクス共通+固有を網羅的に設計主要メトリクスを定義メトリクスが不足
アラート段階的で実用的なルール基本的なルールを定義ルールが不適切
ダッシュボード対象者別の階層設計基本的なパネルを配置可視化が不十分

推定所要時間: 90分