クイズの説明
Step 5「評価パイプラインを構築しよう」の理解度を確認します。全6問、80%以上正解で合格です。
問題
Q1. RAGASのFaithfulnessメトリクスが測定するものはどれですか?
- A) 回答がユーザーの質問に関連しているか
- B) 回答が検索されたコンテキストに忠実か
- C) 検索結果の精度
- D) 回答の文法的正確さ
答えを見る
正解: B
Faithfulness(忠実度)は、生成された回答の各主張が検索されたコンテキスト(ドキュメント)によって裏付けられているかを測定します。ハルシネーションの検出に重要です。
Q2. AIシステムの入力ドリフトを検知する方法として適切なものはどれですか?
- A) サーバーのCPU使用率を監視する
- B) 質問のエンベディング分布の変化を統計的に検知する
- C) データベースのサイズを監視する
- D) APIのレスポンスサイズを監視する
答えを見る
正解: B
入力ドリフトは、ユーザーの質問傾向が変化することです。質問をエンベディング化し、その分布をKLダイバージェンス等の統計手法で時系列比較することで検知できます。
Q3. LLM-as-Judgeアプローチの特徴として正しいものはどれですか?
- A) 人間の評価者が全回答を手動でスコアリングする
- B) 別のLLMを使って回答品質を自動スコアリングする
- C) ルールベースで回答の文字数を評価する
- D) ユーザーのクリック率で品質を評価する
答えを見る
正解: B
LLM-as-Judgeは、別のLLM(評価用モデル)を使って生成された回答の品質を自動的にスコアリングする手法です。人間の評価と高い相関を示し、大規模な自動評価に適しています。
Q4. RAGシステムの評価用テストデータセットに含めるべきものはどれですか?
- A) 質問のみ
- B) 質問と正解(期待される回答)
- C) 質問、正解、参照すべきコンテキスト
- D) 質問とユーザーのプロフィール
答えを見る
正解: C
RAGの評価には、質問(入力)、正解(期待される回答)、参照すべきコンテキスト(正解を導く文書)の3要素が必要です。これによりContext Recall等のメトリクスも計算可能になります。
Q5. 本番モニタリングでハルシネーション率が急上昇した場合、最初に確認すべきことはどれですか?
- A) サーバーのメモリ使用率
- B) 最近のドキュメント更新やインデックス変更
- C) ユーザー数の変化
- D) 競合サービスの動向
答えを見る
正解: B
ハルシネーション率の上昇は、検索されるコンテキストの品質低下が原因であることが多いです。最近のドキュメント更新、削除、インデックスの再構築などの変更が影響していないか確認します。
Q6. フィードバックループの設計で最も重要な原則はどれですか?
- A) 全フィードバックを即座にモデルの再学習に使用する
- B) フィードバックを体系的に収集・分類し、改善アクションに繋げる仕組みを作る
- C) ネガティブなフィードバックのみ収集する
- D) フィードバックは月次でまとめて分析する
答えを見る
正解: B
フィードバックを体系的に収集し、「プロンプト問題」「ドキュメント不足」「検索精度」等に分類して、それぞれ適切な改善アクションに繋げるプロセスが重要です。
結果
5問以上正解の場合
合格です。 評価パイプラインとモニタリングの知識を理解しています。総合演習に進みましょう。
4問以下の場合
もう少し復習しましょう。 RAGAS、ドリフト検知、フィードバックループを確認してください。