評価フレームワーク - L0 カリキュラム

ストーリー

佐

佐藤CTO

AIシステムは”なんとなく良さそう”では本番に出せない。定量的な評価が必要だ

佐

佐藤CTO

RAGASのようなフレームワークで自動評価し、A/Bテストで実際のユーザー体験を検証する。この2段構えが品質を担保する

RAGASフレームワーク

評価メトリクス

メトリクス	定義	計測方法
Faithfulness	回答がコンテキストに忠実か	回答の各主張がコンテキストで裏付けられるか判定
Answer Relevancy	回答が質問に関連しているか	回答から質問を逆生成し、元の質問との類似度
Context Precision	検索されたコンテキストの精度	関連コンテキストが上位にランクされているか
Context Recall	必要なコンテキストが検索できているか	正解に必要な情報がコンテキストに含まれるか

評価パイプライン

graph TD
    TD["テストデータセット<br/>（質問, 正解, コンテキスト）"]
    RAG["RAGシステム実行 → 回答生成"]
    EVAL["RAGAS評価<br/>Faithfulness, Relevancy,<br/>Precision, Recall"]
    SCORE["スコアレポート"]
    CHECK{"閾値チェック"}
    PASS["Pass"]
    FAIL["Fail"]

    TD --> RAG --> EVAL --> SCORE --> CHECK
    CHECK -->|"合格"| PASS
    CHECK -->|"不合格"| FAIL

    style PASS fill:#e8f5e9,stroke:#2e7d32
    style FAIL fill:#ffebee,stroke:#c62828

テストデータセットの作成

手法	説明	データ数目安
手動作成	ドメインエキスパートが作成	50-100件
合成生成	LLMでドキュメントから質問を自動生成	500-1,000件
本番ログ	実際のユーザー質問からサンプリング	100-500件

A/Bテスト

AIシステムのA/Bテスト設計

項目	内容
分割単位	ユーザー単位（セッション単位は避ける）
最低サンプル数	各群1,000リクエスト以上
評価期間	2-4週間
主要指標	タスク完了率、ユーザー満足度、フォールバック率

まとめ

ポイント	内容
RAGAS	Faithfulness/Relevancyで自動評価
テストデータ	手動+合成+本番ログの組み合わせ
A/Bテスト	ユーザー単位で統計的に有意な評価

次のステップへ

次は本番モニタリングについて学びます。

推定読了時間: 25分