クイズの説明
Step 1「RAGアーキテクチャの全体像を理解しよう」の理解度を確認します。RAGの基本概念、アーキテクチャの種類、Embedding、ベクトルDBについて問います。
合格ライン: 80%(5問中4問正解)
問題
Q1. RAGの基本概念
RAG(Retrieval-Augmented Generation)の最も正確な説明はどれですか?
- A. LLMのモデルパラメータを社内データで再学習させる手法
- B. 外部の知識ソースから関連情報を検索し、その情報をコンテキストとしてLLMに渡して回答を生成する手法
- C. LLMの出力を別のLLMで検証・修正する手法
- D. ベクトルDBに格納されたデータを直接ユーザーに返す検索エンジン
答えを見る
正解: B
RAGは「Retrieval(検索)→ Augmentation(拡張)→ Generation(生成)」の3ステップからなる手法です。外部の知識ソースから関連情報を検索し、その情報をプロンプトのコンテキストとしてLLMに渡すことで、LLMが持たない最新情報や社内固有の知識に基づいた回答を生成します。Aはfine-tuningの説明、CはSelf-RAGの一部、DはRAGではなく単なる検索エンジンです。
Q2. RAGアーキテクチャの選定
社内FAQ対応システムのPoCを2週間で立ち上げたい場合、最も適切なRAGアーキテクチャはどれですか?
- A. Modular RAG — モジュール単位で柔軟に組み替えられるため
- B. Advanced RAG(Pre+Post-Retrieval) — 最高の精度が期待できるため
- C. Naive RAG — 最小構成で素早く動作確認が可能なため
- D. RAGは不要でFine-tuningで対応すべき
答えを見る
正解: C
PoCで最も重要なのは「素早く動作するプロトタイプを作り、仮説を検証すること」です。Naive RAGは最もシンプルな構成(チャンキング→Embedding→ベクトル検索→LLM生成)であり、2週間で十分に実装可能です。Modular RAG(A)やAdvanced RAG(B)は精度は高いですが、実装に時間がかかりPoCの目的に適しません。Fine-tuning(D)はFAQ対応には過剰であり、データ準備や学習に大きなコストがかかります。まずNaive RAGでベースラインを確認し、課題が見えたらAdvanced RAGに進化させるのが正しいアプローチです。
Q3. Embeddingモデルの選定
日本語の社内技術文書を対象とするRAGシステムでEmbeddingモデルを選定する際、最も重要な評価基準はどれですか?
- A. モデルのパラメータ数が最大であること
- B. 英語のベンチマークスコアが最も高いこと
- C. 日本語テキストでの検索精度、コスト、最大トークン数のバランス
- D. 無料のOSSモデルであること
答えを見る
正解: C
Embeddingモデルの選定は、対象言語での検索精度、コスト、最大トークン数を総合的に判断する必要があります。パラメータ数が大きいこと(A)は必ずしも日本語の精度向上に直結しません。英語ベンチマーク(B)は参考にはなりますが、日本語対応とは別問題です。無料であること(D)はコスト面のメリットですが、精度が不十分であれば本末転倒です。日本語テキストでの実際の検索精度を検証した上で、コストとのバランスで判断することが最も重要です。
Q4. ベクトルDBの選定
既存のPostgreSQLを運用しているチームが、RAGシステム用のベクトルDBを選定しています。pgvectorを選択するメリットとデメリットの組み合わせとして正しいものはどれですか?
- A. メリット: 既存DB基盤を活用可能 / デメリット: ハイブリッド検索の実装を自前で行う必要がある
- B. メリット: 最もスケーラブル / デメリット: 学習コストが高い
- C. メリット: ハイブリッド検索が標準装備 / デメリット: PostgreSQLとの統合が困難
- D. メリット: 無料で利用可能 / デメリット: ベクトル検索の精度が他DBより低い
答えを見る
正解: A
pgvectorの最大のメリットは、既存のPostgreSQL基盤にベクトル検索機能を追加できる点です。新たなDBの運用ノウハウが不要で、SQLベースのメタデータフィルタリングも容易です。一方、デメリットとして、Weaviate等の専用ベクトルDBに比べるとハイブリッド検索(ベクトル検索+全文検索)の統合的な機能が弱く、自前での実装が必要になります。B(最もスケーラブルではない)、C(ハイブリッド検索は標準装備ではない、PostgreSQL統合は容易)、D(精度自体は同等のANNアルゴリズムを使えば遜色ない)は不正確です。
Q5. コサイン類似度の解釈
ベクトル検索で以下のコサイン類似度が得られました。クエリ「RAGの検索精度を向上させる方法」に対して最も関連性が高いドキュメントはどれですか?
| ドキュメント | コサイン類似度 |
|---|---|
| A. 「ベクトルDBのバックアップ手順」 | 0.45 |
| B. 「Rerankingによる検索結果の最適化」 | 0.88 |
| C. 「LLMのFine-tuning入門」 | 0.52 |
| D. 「社内ネットワークの構成図」 | 0.12 |
- A. ベクトルDBのバックアップ手順(0.45)
- B. Rerankingによる検索結果の最適化(0.88)
- C. LLMのFine-tuning入門(0.52)
- D. 社内ネットワークの構成図(0.12)
答えを見る
正解: B
コサイン類似度は-1から1の範囲を取り、値が1に近いほど意味的に類似していることを示します。「Rerankingによる検索結果の最適化」(B: 0.88)は「RAGの検索精度を向上させる方法」と意味的に最も近く、実際にRerankingはRAGの検索精度向上における主要な手法です。0.8以上は強い関連を示します。A(0.45)はベクトルDBに関連はあるが検索精度向上とは直接関係が薄く、C(0.52)はLLM関連だがRAGの検索精度とは別テーマです。D(0.12)はほぼ無関係です。
結果
合格(4問以上正解)
Step 1の内容をよく理解しています。RAGの基本概念、アーキテクチャの選定基準、EmbeddingとベクトルDBの基礎知識を身につけました。次のStep 2「ドキュメント処理とチャンキングを設計しよう」に進みましょう。
不合格(3問以下正解)
Step 1の内容を復習しましょう。特に以下のポイントを重点的に確認してください:
- RAGの基本フロー — Retrieval→Augmentation→Generationの3ステップ
- アーキテクチャの進化 — Naive→Advanced→Modularの違いと使い分け
- Embeddingモデルの選定基準 — 精度、日本語対応、コストのバランス
- ベクトルDBの比較 — マネージド型 vs セルフホスト型の特徴
推定所要時間: 15分