ストーリー
ミッション概要
| 項目 | 内容 |
|---|---|
| 目標 | AIシステムのモニタリング基盤を設計する |
| 所要時間 | 90分 |
| ミッション数 | 3つ |
| 使用知識 | ログ収集 / 品質メトリクス / ドリフト検出 / アラート設計 |
| 評価観点 | メトリクスの網羅性、アラートの実用性、ダッシュボードの有用性 |
Mission 1: メトリクス設計(30分)
タスク
NetShop社の6つのAIシステムに対するメトリクス設計を行ってください。
【メトリクス設計書】
1. 共通メトリクス(全システム共通):
| メトリクス | 計算方法 | 収集頻度 | 閾値 |
|-----------|---------|---------|------|
| ___ | ___ | ___ | ___ |
2. システム固有メトリクス(3システム分):
チャットボット:
| メトリクス | 計算方法 | 閾値 |
|-----------|---------|------|
| ___ | ___ | ___ |
レコメンドAI: ___
請求書処理AI: ___
3. ドリフト検出の設計:
| 対象 | 検出手法 | 基準期間 | 検出頻度 |
|------|---------|---------|---------|
| ___ | ___ | ___ | ___ |
解答例を見る
1. 共通メトリクス:
| メトリクス | 計算方法 | 収集頻度 | 閾値 |
|-----------|---------|---------|------|
| エラー率 | エラー数/総リクエスト数 | 1分 | >5% |
| レイテンシP95 | 95パーセンタイル応答時間 | 1分 | >5000ms |
| スループット | リクエスト数/分 | 1分 | 通常の50%以下 |
| トークンコスト | 消費トークン数×単価 | 1時間 | 予算の80%超 |
| 可用性 | 成功リクエスト/総リクエスト | 5分 | <99.5% |
2. システム固有:
チャットボット:
| ハルシネーション率 | LLM-as-Judge自動評価 | <5% |
| ユーザー満足度(CSAT) | フィードバックボタン | >80% |
| エスカレーション率 | 人間に転送された割合 | <20% |
レコメンドAI:
| CTR | クリック数/表示数 | >3% |
| カバレッジ | 推薦された商品の多様性 | >60% |
| セレンディピティ | 予想外の有用な推薦の割合 | >10% |
請求書処理AI:
| フィールド抽出精度 | 正解ラベルとの一致率 | >95% |
| 自動処理率 | 人的介入なしの割合 | >70% |
| クロスチェック合格率 | 金額整合性チェックの合格率 | >98% |
3. ドリフト検出:
| 対象 | 手法 | 基準期間 | 頻度 |
|------|------|---------|------|
| チャットボット入力 | 埋め込みドリフト | 過去30日 | 日次 |
| レコメンドクリック | PSI | 過去7日 | 日次 |
| 請求書フォーマット | 画像特徴量PSI | 過去30日 | 週次 |
Mission 2: アラートルール策定(30分)
タスク
【アラートルール設計書】
1. アラートルール一覧(最低10ルール):
| ルール名 | メトリクス | 条件 | レベル | 通知先 |
|---------|-----------|------|--------|--------|
| ___ | ___ | ___ | ___ | ___ |
2. エスカレーションフロー:
___
3. ランブック(CRITICALアラート1件分):
___
4. アラート疲れ防止策:
___
解答例を見る
1. アラートルール:
| ルール名 | メトリクス | 条件 | レベル | 通知先 |
|---------|-----------|------|--------|--------|
| 全体エラー率 | error_rate | >10% 3回連続 | CRITICAL | PagerDuty |
| 全体エラー率 | error_rate | >5% 3回連続 | ERROR | Slack+Email |
| レイテンシ超過 | latency_p95 | >10s 2回連続 | ERROR | Slack |
| コスト急増 | hourly_cost | 前時間比200% | WARNING | Slack+Finance |
| チャットボット品質 | quality_score | <0.6 | ERROR | Slack+Email |
| ハルシネーション急増 | hallucination_rate | >10% | ERROR | Slack |
| 請求書精度低下 | extraction_accuracy | <90% | ERROR | Slack+経理 |
| レコメンドCTR低下 | ctr | 前週比50%低下 | WARNING | Slack |
| データドリフト | psi_score | >0.2 | WARNING | Slack |
| API可用性 | availability | <99% 5分間 | CRITICAL | PagerDuty |
| 日次コスト超過 | daily_cost | 予算の90%超 | WARNING | Email+Finance |
2. エスカレーション:
CRITICAL: 0分→PagerDuty(オンコール)→15分未応答→チームリーダー→
30分未応答→CTO
ERROR: 0分→Slack通知→4時間未対応→チームリーダーメンション
WARNING: Slack通知→翌営業日までに確認
3. ランブック(全体エラー率CRITICAL):
初期確認(5分): エラー種別の内訳確認、影響システムの特定
切り分け(15分): 外部API状態確認、インフラ確認、直近変更確認
対処: APIダウン→フォールバック切替 / インフラ→スケーリング /
原因不明→該当機能の一時停止+エスカレーション
復旧確認: エラー率5%以下に回復、影響リクエストの再処理判断
4. 防止策:
- 連続N回超過で初めて発報(スパイク除外)
- 同一アラートの重複抑制(30分間隔)
- 低優先度アラートは日次ダイジェストに集約
- 月次でアラート発報頻度をレビューし、ノイジーなルールを調整
Mission 3: ダッシュボード設計(30分)
タスク
【ダッシュボード設計書】
1. ダッシュボード一覧:
| 名前 | 対象者 | 主要パネル | 更新頻度 |
|------|--------|----------|---------|
| ___ | ___ | ___ | ___ |
2. オペレーションダッシュボードの詳細設計:
パネル配置図: ___
各パネルの仕様: ___
3. 技術スタック:
| コンポーネント | 技術選定 | 選定理由 |
|-------------|---------|---------|
| ___ | ___ | ___ |
解答例を見る
1. ダッシュボード一覧:
| 名前 | 対象者 | 主要パネル | 更新 |
|------|--------|----------|------|
| AI Executive | 経営層 | 月次コスト、KPIサマリ、インシデント | 日次 |
| AI Operations | 運用チーム | リアルタイムメトリクス、アラート | 1分 |
| AI Quality | 品質チーム | 品質スコア、ドリフト、バイアス | 1時間 |
| AI Cost | 経理 | コスト内訳、予算消化率、予測 | 1時間 |
2. オペレーションダッシュボード:
上段: サービス正常性マップ(6システムのUp/Down一覧)
中段左: エラー率の時系列グラフ(直近24時間、閾値ライン付き)
中段右: レイテンシP50/P95/P99(直近24時間)
下段左: アクティブアラート一覧(レベル、発生時刻、対象システム)
下段右: スループット(リクエスト/分の時系列)
3. 技術スタック:
| コンポーネント | 技術 | 理由 |
|-------------|------|------|
| メトリクス収集 | CloudWatch + カスタムメトリクス | AWS統合 |
| ログ集約 | CloudWatch Logs + Athena | S3連携 |
| 可視化 | Grafana | 柔軟なダッシュボード |
| アラート | CloudWatch Alarms + PagerDuty | 段階的通知 |
| 長期分析 | S3 + Athena + QuickSight | コスト効率 |
達成度チェック
| 評価項目 | A(優秀) | B(合格) | C(要改善) |
|---|---|---|---|
| メトリクス | 共通+固有を網羅的に設計 | 主要メトリクスを定義 | メトリクスが不足 |
| アラート | 段階的で実用的なルール | 基本的なルールを定義 | ルールが不適切 |
| ダッシュボード | 対象者別の階層設計 | 基本的なパネルを配置 | 可視化が不十分 |
推定所要時間: 90分