クイズの説明
Step 5「RAGシステムの評価と運用を設計しよう」の理解度を確認します。RAGAS評価フレームワーク、モニタリング、運用設計について問います。
合格ライン: 80%(5問中4問正解)
問題
Q1. RAGASの評価指標
RAGASの「Faithfulness」指標が示すものとして正しいものはどれですか?
- A. 検索結果がユーザーの質問に関連しているかの度合い
- B. 生成された回答が検索結果(コンテキスト)に基づいているかの度合い
- C. 検索結果に回答に必要な情報がすべて含まれているかの度合い
- D. システムの応答速度の安定性
答えを見る
正解: B
Faithfulness(忠実性)は、生成された回答が検索結果(コンテキスト)に基づいているかを評価する指標です。回答から主張(claims)を抽出し、各主張がコンテキストに裏付けられているかを判定します。Faithfulnessが低い場合、LLMがコンテキスト外の知識で推測している(ハルシネーション)可能性が高いです。A はContext PrecisionまたはAnswer Relevance、CはContext Recall、Dは応答時間に関する指標であり、Faithfulnessとは異なります。
Q2. ドリフトの検知
RAGシステムの品質が徐々に低下する「ドリフト」の原因として、最も可能性が低いものはどれですか?
- A. ナレッジベースのドキュメントが更新されたがインデックスが更新されていない
- B. ユーザーの質問パターンが変化した
- C. ベクトルDBのサーバーのCPUが新しい世代に更新された
- D. LLM APIのモデルバージョンが変更された
答えを見る
正解: C
CPUの世代更新(C)は処理速度に影響する可能性はありますが、RAGの品質(精度、忠実性等)に直接的な影響を与えることは通常ありません。一方、ドキュメント更新とインデックスの不一致(A: データドリフト)、ユーザーの質問パターンの変化(B: クエリドリフト)、LLMのモデルバージョン変更(D: モデルドリフト)はいずれもRAGの品質に直接影響を与える主要なドリフト要因です。
Q3. インデックス更新戦略
本番環境のベクトルDBインデックスを安全に全量再構築する方法として最も適切なものはどれですか?
- A. 本番コレクションを削除して、新しいインデックスを直接構築する
- B. Blue-Green方式で新しいコレクションを構築・検証した後、トラフィックを切り替える
- C. インデックスの全量再構築は不要。差分更新のみで十分
- D. 夜間にシステムを停止してインデックスを再構築する
答えを見る
正解: B
Blue-Green方式は、現在の本番コレクション(Blue)を稼働させたまま、新しいコレクション(Green)を別途構築し、品質検証(RAGASスコアの確認)を行った後にトラフィックを切り替える方式です。ダウンタイムがなく、問題があれば旧コレクションに即座にロールバックできます。本番コレクションの直接削除(A)はダウンタイムが発生し、ロールバックもできません。差分更新のみ(C)ではチャンキング戦略やEmbeddingモデルの変更時に全量再構築が必要です。夜間停止(D)は可用性を損ないます。
Q4. コスト最適化
RAGシステムの月間API利用料が予算を超過しています。品質への影響を最小限に抑えつつコストを削減する施策として、最も効果的なものはどれですか?
- A. LLMのmax_tokensを50に制限する
- B. セマンティックキャッシュを導入し、類似クエリの回答を再利用する
- C. ベクトル検索のTop-Kを1に固定する
- D. RAGシステムの利用を申請制にしてリクエスト数を減らす
答えを見る
正解: B
セマンティックキャッシュは、過去に回答したクエリと類似度が高いクエリに対して、キャッシュされた回答を返す仕組みです。API呼び出し数を15〜25%削減でき、品質への影響は最小限です。max_tokensの極端な制限(A: 50トークン)は回答が不完全になり品質が大幅に低下します。Top-K=1(C)は検索精度が大幅に低下します。利用の申請制(D)はユーザー体験を損ない、RAGシステムの導入目的に反します。
Q5. 改善サイクル
ダッシュボード上でThumbsDown率が先週から10%増加しています。最初に取るべきアクションとして最も適切なものはどれですか?
- A. 即座にLLMモデルをより高性能なものに変更する
- B. ThumbsDownが付いたクエリを収集・分類し、失敗パターンの根本原因を分析する
- C. チャンキングサイズを半分にして再インデックスする
- D. Rerankingのスコア閾値を上げて、低品質な検索結果を除外する
答えを見る
正解: B
品質低下が検知された場合、最初にすべきは根本原因の分析です。ThumbsDownが付いたクエリを収集し、「検索結果が不関連」「ハルシネーション」「回答が不完全」「古い情報」等のパターンに分類します。根本原因が特定されてはじめて、適切な対策(モデル変更、チャンキング調整、Reranking調整等)が選べます。原因分析なしにモデル変更(A)やチャンキング変更(C)やReranking調整(D)を行っても、効果がない可能性があり、場合によっては悪化させるリスクがあります。
結果
合格(4問以上正解)
Step 5の内容をよく理解しています。RAGシステムの評価と運用設計の基礎を身につけました。最後のStep 6「総合演習」に進みましょう。
不合格(3問以下正解)
Step 5の内容を復習しましょう。特に以下のポイントを重点的に確認してください:
- RAGAS — 4つの評価指標(特にFaithfulness)の意味
- ドリフト — 4種類のドリフトの原因と検知方法
- 運用設計 — Blue-Green更新、コスト最適化の手法
- 改善サイクル — Observe→Analyze→Plan→Execute→Measureの流れ
推定所要時間: 15分