演習：評価パイプラインを構築しよう

ストーリー

佐

佐藤CTO

品質を測れないものは改善できない。評価パイプラインを設計して、AIシステムの品質を可視化しよう

ミッション概要

ミッション	テーマ	目安時間
Mission 1	評価パイプラインの設計	20分
Mission 2	モニタリングダッシュボード設計	15分
Mission 3	フィードバックループの設計	15分

前提シナリオ

サービス: 社内ナレッジ検索チャットボット
ユーザー: 社員5,000名
月間リクエスト: 50万件
評価要件:
  - デプロイ前の品質ゲート
  - 本番の品質モニタリング
  - ユーザーフィードバックの活用

Mission 1: 評価パイプライン設計（20分）

要件

デプロイ前に実行する自動評価パイプラインを設計してください。

解答例

パイプライン構成

コード変更 / プロンプト変更 / ドキュメント更新
    │
    ▼
CI/CDトリガー
    │
    ├─ テストデータセット読み込み（200件）
    ├─ RAGシステム実行 → 回答生成
    ├─ RAGAS評価実行
    │    ├── Faithfulness: 閾値 > 0.85
    │    ├── Answer Relevancy: 閾値 > 0.80
    │    ├── Context Precision: 閾値 > 0.75
    │    └── Context Recall: 閾値 > 0.80
    ├─ レイテンシチェック（p95 < 5秒）
    └─ コストチェック（平均リクエスト単価 < ¥10）
    │
    ▼
全チェックPass → デプロイ許可
いずれかFail → デプロイブロック + レポート生成

Mission 2: モニタリングダッシュボード（15分）

要件

本番環境の品質・パフォーマンス・コストを監視するダッシュボードを設計してください。

解答例

セクション	パネル	データソース
品質	👍/👎率の推移（日次）	アプリケーションログ
品質	ハルシネーション率（自動検知）	LLM-as-Judge結果
品質	「わかりません」率	回答分類ログ
パフォーマンス	TTFT p50/p95/p99	APMメトリクス
パフォーマンス	エラー率・フォールバック率	APIログ
コスト	日次コスト推移	LLM API利用ログ
コスト	モデル別リクエスト割合	ルーティングログ
コスト	キャッシュヒット率	キャッシュメトリクス
RAG	検索関連度スコア分布	RAGパイプラインログ
RAG	ドキュメント参照頻度Top10	検索ログ

Mission 3: フィードバックループ設計（15分）

要件

ユーザーフィードバックを品質改善に活かすプロセスを設計してください。

解答例

フィードバック収集

チャネル	頻度	内容
👍/👎ボタン	全リクエスト	即時のユーザー満足度
コメント欄	任意	具体的な改善ポイント
定期アンケート	月次	全体的な満足度・要望

分析・改善フロー

低評価回答の週次レビュー
    │
    ├─ プロンプトの問題 → プロンプト修正 → 評価パイプラインで検証
    ├─ ドキュメント不足 → ドキュメント追加 → インデックス再構築
    ├─ 検索精度の問題 → エンベディング/検索パラメータ調整
    └─ モデルの限界 → モデル変更 or ファインチューニング検討

まとめ

ポイント	内容
評価パイプライン	デプロイ前にRAGASで自動品質ゲート
ダッシュボード	品質・パフォーマンス・コストを一元監視
フィードバック	ユーザーの声を体系的に収集・分析・改善

チェックリスト

自動評価パイプラインを設計できた
モニタリングダッシュボードを設計できた
フィードバックループを設計できた

次のステップへ

次はチェックポイントクイズで理解度を確認します。

推定読了時間: 50分