LESSON 25分

ストーリー

佐藤CTO
AIシステムは”なんとなく良さそう”では本番に出せない。定量的な評価が必要だ
佐藤CTO
RAGASのようなフレームワークで自動評価し、A/Bテストで実際のユーザー体験を検証する。この2段構えが品質を担保する

RAGASフレームワーク

評価メトリクス

メトリクス定義計測方法
Faithfulness回答がコンテキストに忠実か回答の各主張がコンテキストで裏付けられるか判定
Answer Relevancy回答が質問に関連しているか回答から質問を逆生成し、元の質問との類似度
Context Precision検索されたコンテキストの精度関連コンテキストが上位にランクされているか
Context Recall必要なコンテキストが検索できているか正解に必要な情報がコンテキストに含まれるか

評価パイプライン

graph TD
    TD["テストデータセット<br/>(質問, 正解, コンテキスト)"]
    RAG["RAGシステム実行 → 回答生成"]
    EVAL["RAGAS評価<br/>Faithfulness, Relevancy,<br/>Precision, Recall"]
    SCORE["スコアレポート"]
    CHECK{"閾値チェック"}
    PASS["Pass"]
    FAIL["Fail"]

    TD --> RAG --> EVAL --> SCORE --> CHECK
    CHECK -->|"合格"| PASS
    CHECK -->|"不合格"| FAIL

    style PASS fill:#e8f5e9,stroke:#2e7d32
    style FAIL fill:#ffebee,stroke:#c62828

テストデータセットの作成

手法説明データ数目安
手動作成ドメインエキスパートが作成50-100件
合成生成LLMでドキュメントから質問を自動生成500-1,000件
本番ログ実際のユーザー質問からサンプリング100-500件

A/Bテスト

AIシステムのA/Bテスト設計

項目内容
分割単位ユーザー単位(セッション単位は避ける)
最低サンプル数各群1,000リクエスト以上
評価期間2-4週間
主要指標タスク完了率、ユーザー満足度、フォールバック率

まとめ

ポイント内容
RAGASFaithfulness/Relevancyで自動評価
テストデータ手動+合成+本番ログの組み合わせ
A/Bテストユーザー単位で統計的に有意な評価

次のステップへ

次は本番モニタリングについて学びます。


推定読了時間: 25分