EXERCISE 60分

ストーリー

田中VPoE
評価フレームワーク、モニタリング、運用設計 — 理論はすべて学んだ。最後の演習だ。NetShop社のRAGシステムの品質を一目で把握できる評価ダッシュボードを設計してもらう
あなた
ダッシュボードの設計ですか。どんな情報を載せればいいんでしょう?
田中VPoE
開発チーム向けと経営層向け、両方のビューが必要だ。開発チームは技術的な指標と改善のための情報が欲しい。経営層はROIとビジネス価値が知りたい。同じデータを、異なる粒度で見せる設計が求められる
あなた
「誰が見るダッシュボードか」を意識した設計ですね

ミッション概要

項目内容
演習タイトルRAG評価ダッシュボード設計
想定時間60分
成果物ダッシュボード設計書(開発チーム向け + 経営層向け)

Mission 1: 開発チーム向けダッシュボード設計

要件

以下のダッシュボードを設計してください。

  1. リアルタイムパネル(5〜8個)
  2. 品質トレンドパネル(3〜5個)
  3. アラートルール(Critical/Warning/Info)
  4. ドリルダウン機能(クエリ単位の詳細分析)
解答例

リアルタイムパネル

パネル名表示内容グラフ種類
リクエスト数1分間のリクエスト数推移折れ線グラフ
レイテンシ分布P50/P95/P99の推移折れ線グラフ(3本線)
エラー率HTTPエラー率の推移折れ線グラフ + 閾値線
検索ゼロ件率検索結果が0件のクエリ比率ゲージ
Rerankスコア分布Top-1のRerankスコアのヒストグラムヒストグラム
ユーザー満足度直近24時間のThumbsUp/Downドーナツグラフ
コスト(本日)本日のAPI利用料累計数値 + 予算対比

品質トレンドパネル

パネル名表示内容更新頻度
RAGAS 4指標推移Faithfulness/Relevance/Precision/Recall週次
クエリカテゴリ別精度事実検索/ID検索/時系列等のカテゴリ別精度週次
失敗クエリ分析Thumbs Down + 低Rerankスコアのクエリ一覧日次
ドキュメントカバレッジインデックス済み/未インデックスのドキュメント比率日次

アラートルール

レベル条件通知先対応
Criticalエラー率 > 5% が3分継続Slack #alert + PagerDutyオンコール即時対応
Criticalレイテンシ P99 > 30秒Slack #alert + PagerDutyスケーリング確認
WarningThumbs Up率 < 70% が24時間Slack #rag-ops品質改善チケット作成
Warning検索ゼロ件率 > 15% が1時間Slack #rag-opsインデックス確認
InfoRAGAS指標が前週比5%以上低下Slack #rag-ops週次レビューで議論
Info日次コストが予算の110%Slack #rag-opsコスト分析

Mission 2: 経営層向けダッシュボード設計

要件

以下のダッシュボードを設計してください。

  1. KPIサマリー(4〜6個の主要指標)
  2. ROI分析パネル
  3. 利用状況パネル
  4. 月次レポートテンプレート
解答例

KPIサマリー

KPI表示ターゲット
月間利用ユーザー数150名 / 200名(開発チーム全体)全員利用
月間クエリ数12,500件前月比10%増
ユーザー満足度78%80%以上
回答精度(Faithfulness)0.880.90以上
平均応答時間2.8秒3秒以内
月間コスト25万円30万円以内

ROI分析

項目数値
検索時間削減1人あたり30分/日 → 200名 × 30分 × 22日 = 2,200時間/月削減
人件費換算2,200時間 × 6,000円 = 1,320万円/月の効果
システムコスト25万円/月
ROI(1,320 - 25) / 25 = 5,180%

月次レポートテンプレート

NetShop社 社内ナレッジRAGシステム 月次レポート
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

■ サマリー
- 月間利用者: XXX名(前月比 +XX%)
- 月間クエリ数: XX,XXX件(前月比 +XX%)
- ユーザー満足度: XX%

■ 品質指標
- Faithfulness: X.XX(目標: 0.90)
- 平均レイテンシ: X.X秒(目標: 3秒)

■ コスト
- 月間コスト: XX万円(予算: 30万円)
- クエリあたりコスト: XX円

■ 主なトピック
- [改善] XXの精度をXX%向上
- [課題] XXのクエリパターンで精度が低い

■ 来月の計画
- XXの最適化施策を実施予定

Mission 3: 改善サイクルの設計

要件

ダッシュボードの指標に基づいて品質を継続的に改善するサイクルを設計してください。

  1. 改善サイクルのフロー
  2. 優先度付けの基準
  3. 効果測定方法
解答例

改善サイクル

[Observe] ダッシュボードの異常検知
  ├── Thumbs Down率の増加
  ├── RAGAS指標の低下
  └── 新しいクエリパターンの出現

[Analyze] 根本原因分析
  ├── 失敗クエリの分類・集計
  ├── 検索結果の関連度分析
  └── ドキュメントカバレッジの確認

[Plan] 改善施策の立案
  ├── チャンキング戦略の調整
  ├── メタデータの追加・修正
  ├── クエリ変換ルールの追加
  └── Rerankingパラメータの調整

[Execute] A/Bテストで実施

[Measure] 効果測定
  ├── RAGAS指標の変化
  ├── ユーザー満足度の変化
  └── コスト影響

[Observe] に戻る

優先度付け基準

優先度基準対応期限
P0Faithfulness < 0.7(ハルシネーション多発)即日
P1ユーザー満足度 < 60%1週間以内
P2RAGAS指標が目標値を5%以上下回る2週間以内
P3新しいクエリパターンへの対応次スプリント

達成度チェック

観点達成基準
開発チーム向けリアルタイム/トレンド/アラートが網羅的に設計されている
経営層向けKPI、ROI、利用状況がビジネス視点で設計されている
アラート設計重要度別に適切な閾値と通知先が定義されている
改善サイクルObserve→Analyze→Plan→Execute→Measureのサイクルが設計されている
実用性日常的に使えるレベルの具体性がある

推定所要時間: 60分