ストーリー
佐
佐藤CTO
AIシステムは”なんとなく良さそう”では本番に出せない。定量的な評価が必要だ
佐
佐藤CTO
RAGASのようなフレームワークで自動評価し、A/Bテストで実際のユーザー体験を検証する。この2段構えが品質を担保する
RAGASフレームワーク
評価メトリクス
| メトリクス | 定義 | 計測方法 |
|---|
| Faithfulness | 回答がコンテキストに忠実か | 回答の各主張がコンテキストで裏付けられるか判定 |
| Answer Relevancy | 回答が質問に関連しているか | 回答から質問を逆生成し、元の質問との類似度 |
| Context Precision | 検索されたコンテキストの精度 | 関連コンテキストが上位にランクされているか |
| Context Recall | 必要なコンテキストが検索できているか | 正解に必要な情報がコンテキストに含まれるか |
評価パイプライン
graph TD
TD["テストデータセット<br/>(質問, 正解, コンテキスト)"]
RAG["RAGシステム実行 → 回答生成"]
EVAL["RAGAS評価<br/>Faithfulness, Relevancy,<br/>Precision, Recall"]
SCORE["スコアレポート"]
CHECK{"閾値チェック"}
PASS["Pass"]
FAIL["Fail"]
TD --> RAG --> EVAL --> SCORE --> CHECK
CHECK -->|"合格"| PASS
CHECK -->|"不合格"| FAIL
style PASS fill:#e8f5e9,stroke:#2e7d32
style FAIL fill:#ffebee,stroke:#c62828
テストデータセットの作成
| 手法 | 説明 | データ数目安 |
|---|
| 手動作成 | ドメインエキスパートが作成 | 50-100件 |
| 合成生成 | LLMでドキュメントから質問を自動生成 | 500-1,000件 |
| 本番ログ | 実際のユーザー質問からサンプリング | 100-500件 |
A/Bテスト
AIシステムのA/Bテスト設計
| 項目 | 内容 |
|---|
| 分割単位 | ユーザー単位(セッション単位は避ける) |
| 最低サンプル数 | 各群1,000リクエスト以上 |
| 評価期間 | 2-4週間 |
| 主要指標 | タスク完了率、ユーザー満足度、フォールバック率 |
まとめ
| ポイント | 内容 |
|---|
| RAGAS | Faithfulness/Relevancyで自動評価 |
| テストデータ | 手動+合成+本番ログの組み合わせ |
| A/Bテスト | ユーザー単位で統計的に有意な評価 |
次のステップへ
次は本番モニタリングについて学びます。
推定読了時間: 25分