ストーリー
田
田中VPoE
評価フレームワーク、モニタリング、運用設計 — 理論はすべて学んだ。最後の演習だ。NetShop社のRAGシステムの品質を一目で把握できる評価ダッシュボードを設計してもらう
あなた
ダッシュボードの設計ですか。どんな情報を載せればいいんでしょう?
あ
田
田中VPoE
開発チーム向けと経営層向け、両方のビューが必要だ。開発チームは技術的な指標と改善のための情報が欲しい。経営層はROIとビジネス価値が知りたい。同じデータを、異なる粒度で見せる設計が求められる
あなた
「誰が見るダッシュボードか」を意識した設計ですね
あ
ミッション概要
| 項目 | 内容 |
|---|
| 演習タイトル | RAG評価ダッシュボード設計 |
| 想定時間 | 60分 |
| 成果物 | ダッシュボード設計書(開発チーム向け + 経営層向け) |
Mission 1: 開発チーム向けダッシュボード設計
要件
以下のダッシュボードを設計してください。
- リアルタイムパネル(5〜8個)
- 品質トレンドパネル(3〜5個)
- アラートルール(Critical/Warning/Info)
- ドリルダウン機能(クエリ単位の詳細分析)
解答例
リアルタイムパネル
| パネル名 | 表示内容 | グラフ種類 |
|---|
| リクエスト数 | 1分間のリクエスト数推移 | 折れ線グラフ |
| レイテンシ分布 | P50/P95/P99の推移 | 折れ線グラフ(3本線) |
| エラー率 | HTTPエラー率の推移 | 折れ線グラフ + 閾値線 |
| 検索ゼロ件率 | 検索結果が0件のクエリ比率 | ゲージ |
| Rerankスコア分布 | Top-1のRerankスコアのヒストグラム | ヒストグラム |
| ユーザー満足度 | 直近24時間のThumbsUp/Down | ドーナツグラフ |
| コスト(本日) | 本日のAPI利用料累計 | 数値 + 予算対比 |
品質トレンドパネル
| パネル名 | 表示内容 | 更新頻度 |
|---|
| RAGAS 4指標推移 | Faithfulness/Relevance/Precision/Recall | 週次 |
| クエリカテゴリ別精度 | 事実検索/ID検索/時系列等のカテゴリ別精度 | 週次 |
| 失敗クエリ分析 | Thumbs Down + 低Rerankスコアのクエリ一覧 | 日次 |
| ドキュメントカバレッジ | インデックス済み/未インデックスのドキュメント比率 | 日次 |
アラートルール
| レベル | 条件 | 通知先 | 対応 |
|---|
| Critical | エラー率 > 5% が3分継続 | Slack #alert + PagerDuty | オンコール即時対応 |
| Critical | レイテンシ P99 > 30秒 | Slack #alert + PagerDuty | スケーリング確認 |
| Warning | Thumbs Up率 < 70% が24時間 | Slack #rag-ops | 品質改善チケット作成 |
| Warning | 検索ゼロ件率 > 15% が1時間 | Slack #rag-ops | インデックス確認 |
| Info | RAGAS指標が前週比5%以上低下 | Slack #rag-ops | 週次レビューで議論 |
| Info | 日次コストが予算の110% | Slack #rag-ops | コスト分析 |
Mission 2: 経営層向けダッシュボード設計
要件
以下のダッシュボードを設計してください。
- KPIサマリー(4〜6個の主要指標)
- ROI分析パネル
- 利用状況パネル
- 月次レポートテンプレート
解答例
KPIサマリー
| KPI | 表示 | ターゲット |
|---|
| 月間利用ユーザー数 | 150名 / 200名(開発チーム全体) | 全員利用 |
| 月間クエリ数 | 12,500件 | 前月比10%増 |
| ユーザー満足度 | 78% | 80%以上 |
| 回答精度(Faithfulness) | 0.88 | 0.90以上 |
| 平均応答時間 | 2.8秒 | 3秒以内 |
| 月間コスト | 25万円 | 30万円以内 |
ROI分析
| 項目 | 数値 |
|---|
| 検索時間削減 | 1人あたり30分/日 → 200名 × 30分 × 22日 = 2,200時間/月削減 |
| 人件費換算 | 2,200時間 × 6,000円 = 1,320万円/月の効果 |
| システムコスト | 25万円/月 |
| ROI | (1,320 - 25) / 25 = 5,180% |
月次レポートテンプレート
NetShop社 社内ナレッジRAGシステム 月次レポート
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
■ サマリー
- 月間利用者: XXX名(前月比 +XX%)
- 月間クエリ数: XX,XXX件(前月比 +XX%)
- ユーザー満足度: XX%
■ 品質指標
- Faithfulness: X.XX(目標: 0.90)
- 平均レイテンシ: X.X秒(目標: 3秒)
■ コスト
- 月間コスト: XX万円(予算: 30万円)
- クエリあたりコスト: XX円
■ 主なトピック
- [改善] XXの精度をXX%向上
- [課題] XXのクエリパターンで精度が低い
■ 来月の計画
- XXの最適化施策を実施予定
Mission 3: 改善サイクルの設計
要件
ダッシュボードの指標に基づいて品質を継続的に改善するサイクルを設計してください。
- 改善サイクルのフロー
- 優先度付けの基準
- 効果測定方法
解答例
改善サイクル
[Observe] ダッシュボードの異常検知
├── Thumbs Down率の増加
├── RAGAS指標の低下
└── 新しいクエリパターンの出現
↓
[Analyze] 根本原因分析
├── 失敗クエリの分類・集計
├── 検索結果の関連度分析
└── ドキュメントカバレッジの確認
↓
[Plan] 改善施策の立案
├── チャンキング戦略の調整
├── メタデータの追加・修正
├── クエリ変換ルールの追加
└── Rerankingパラメータの調整
↓
[Execute] A/Bテストで実施
↓
[Measure] 効果測定
├── RAGAS指標の変化
├── ユーザー満足度の変化
└── コスト影響
↓
[Observe] に戻る
優先度付け基準
| 優先度 | 基準 | 対応期限 |
|---|
| P0 | Faithfulness < 0.7(ハルシネーション多発) | 即日 |
| P1 | ユーザー満足度 < 60% | 1週間以内 |
| P2 | RAGAS指標が目標値を5%以上下回る | 2週間以内 |
| P3 | 新しいクエリパターンへの対応 | 次スプリント |
達成度チェック
| 観点 | 達成基準 |
|---|
| 開発チーム向け | リアルタイム/トレンド/アラートが網羅的に設計されている |
| 経営層向け | KPI、ROI、利用状況がビジネス視点で設計されている |
| アラート設計 | 重要度別に適切な閾値と通知先が定義されている |
| 改善サイクル | Observe→Analyze→Plan→Execute→Measureのサイクルが設計されている |
| 実用性 | 日常的に使えるレベルの具体性がある |
推定所要時間: 60分