EXERCISE 90分

ストーリー

田中VPoE
クエリ変換、Reranking、Self-RAG、高度なパターン — 最適化の引き出しは揃った。ここで実際のシナリオに適用して、検索精度を向上させる計画を立ててもらう
あなた
どのくらいの精度改善を目指しますか?
田中VPoE
Phase 1のベースライン(Naive RAG + Reranking)でPrecision@5が60%だった場合、Phase 2で85%以上を目指す。各最適化手法の効果を見積もり、最もコスト効率の良い改善計画を立ててくれ
あなた
すべての手法を導入するわけではないんですね
田中VPoE
予算とレイテンシの制約がある。無制限にLLMを呼べるわけじゃない。限られたリソースでどの手法の組み合わせが最も効果的かを見極めるのが腕の見せどころだ

ミッション概要

項目内容
演習タイトル検索精度の最適化計画
想定時間90分
成果物最適化計画書(手法選定 + 効果見積もり + 実装計画)

前提条件

現在のベースライン(Phase 1)

指標現状値目標値(Phase 2)
Precision@50.600.85以上
Recall@200.700.85以上
MRR0.650.85以上
Faithfulness0.750.90以上
レイテンシ P953.5秒5秒以内
月額コスト21万円30万円以内

既知の課題

課題ID内容影響する指標
P-01曖昧なクエリで関連度の低い結果が返るPrecision
P-02チケット番号やコード名での検索精度が低いRecall(キーワード検索)
P-03古いドキュメントが上位に来ることがあるPrecision
P-04LLMが検索結果にない情報で回答することがあるFaithfulness
P-05複数のドキュメントを横断する質問に回答できない複合的

Mission 1: 最適化手法の選定

要件

既知の課題に対して、以下を設計してください。

  1. 各課題に対する最適化手法の選定
  2. 各手法の精度向上効果の見積もり
  3. 各手法のレイテンシ・コストへの影響
  4. 手法の優先順位付け(費用対効果順)
解答例

課題と最適化手法のマッピング

課題ID課題適用手法精度効果(見積もり)レイテンシ増コスト増
P-01曖昧クエリQuery RewritingPrecision +10%+300ms+2万円/月
P-02キーワード検索ハイブリッド検索重み調整(動的alpha)Recall +15%+50ms+0.5万円/月
P-03古いドキュメント日付ベースのブースティング + freshness scorePrecision +5%+10ms0円
P-04ハルシネーション軽量版Self-RAG(忠実性チェック)Faithfulness +15%+500ms+3万円/月
P-05複合質問Multi-Query + ステップ分解全体 +5%+800ms+2万円/月

優先順位

優先度手法理由
1ハイブリッド検索重み調整コスト最小、Recall向上効果が大きい
2Query Rewriting多くのクエリに効果、実装が容易
3日付ブースティングコスト0、即座に適用可能
4軽量版Self-RAGFaithfulness改善は信頼性に直結
5Multi-Query複合質問は件数が少なく、費用対効果は低め

効果の積み上げ

フェーズ適用手法Precision@5Recall@20MRRFaithfulnessレイテンシコスト
現状ベースライン0.600.700.650.753.5s21万
+手法1重み調整0.630.820.700.753.55s21.5万
+手法2Query Rewriting0.720.850.780.763.85s23.5万
+手法3日付ブースティング0.760.850.820.763.86s23.5万
+手法4軽量Self-RAG0.780.850.840.904.36s26.5万
+手法5Multi-Query0.850.880.880.914.8s28.5万

→ 目標(Precision 0.85, Faithfulness 0.90)をレイテンシ5秒以内、コスト30万円以内で達成。


Mission 2: A/Bテスト計画

要件

最適化手法の効果を検証するためのA/Bテスト計画を設計してください。

  1. 評価データセットの設計(テスト質問100件)
  2. 評価指標の定義
  3. A/Bテストの実施計画
  4. 成功基準の定義
解答例

評価データセット

カテゴリ件数クエリ例
意味的クエリ(一般)30件「RAGの検索精度を上げるには?」
キーワード的クエリ20件「ECS-2847のステータス」
曖昧なクエリ15件「最近のインフラ変更って何?」
複合的なクエリ15件「AチームのPRが原因の障害の経緯」
フィルタが必要なクエリ10件「開発部の先月の議事録」
回答不可能なクエリ10件「来年の売上予測」(社内文書に情報なし)

A/Bテスト計画

テストA群(対照)B群(実験)期間対象ユーザー
Test 1ベースライン+ 重み調整 + Query Rewriting1週間50%ランダム
Test 2Test 1のB群+ 日付ブースティング + Self-RAG1週間50%ランダム

成功基準

指標基準判定方法
Precision@5B群がA群より10%以上向上評価データセットで自動計測
ユーザー満足度B群のThumbsUp率がA群より5%以上向上ユーザーフィードバック
レイテンシP95が5秒以内を維持パフォーマンスモニタリング

Mission 3: クエリ分析とルーティング設計

要件

クエリの特性を自動判定し、最適な検索戦略にルーティングする仕組みを設計してください。

  1. クエリ分類の定義(3〜5カテゴリ)
  2. 分類ごとの検索戦略
  3. ルーティングの実装方法
解答例

クエリ分類

カテゴリ特徴判定基準検索戦略
事実検索「Xとは何か」「Xの手順」質問形式、具体的なキーワード標準RAG(ベクトル検索主体)
ID/コード検索チケット番号、型番正規表現マッチBM25主体(alpha=0.2)
時系列検索「先月の」「最近の」時間表現を含む日付フィルタ + ベクトル検索
複合質問「AとBの関係」「原因の経緯」複数の主語/目的語Multi-Query + Multi-hop
比較質問「AとBの違い」比較表現を含むMulti-Query(A用、B用)

ルーティング実装

Query Router:

ユーザーのクエリ

[Step 1: ルールベース判定]
├── 正規表現で ID/コードを検出 → ID/コード検索
├── 時間表現を検出 → 時系列検索
└── マッチしない → Step 2へ

[Step 2: LLM分類]
├── LLM(Haiku)でカテゴリ判定
└── JSON出力: {"category": "事実検索", "confidence": 0.9}

[Step 3: 検索戦略の適用]
カテゴリに応じたパラメータセットで検索実行

達成度チェック

観点達成基準
手法選定各課題に対して適切な最適化手法が選定されている
効果見積もり精度向上、レイテンシ、コストの見積もりが具体的
優先順位費用対効果に基づいた合理的な優先順位付けがされている
A/Bテスト評価データセット、成功基準が定義されている
ルーティングクエリ特性に応じた検索戦略の使い分けが設計されている
制約遵守レイテンシ5秒以内、コスト30万円以内の制約を満たしている

推定所要時間: 90分