EXERCISE 50分

ストーリー

佐藤CTO
品質を測れないものは改善できない。評価パイプラインを設計して、AIシステムの品質を可視化しよう

ミッション概要

ミッションテーマ目安時間
Mission 1評価パイプラインの設計20分
Mission 2モニタリングダッシュボード設計15分
Mission 3フィードバックループの設計15分

前提シナリオ

サービス: 社内ナレッジ検索チャットボット
ユーザー: 社員5,000名
月間リクエスト: 50万件
評価要件:
  - デプロイ前の品質ゲート
  - 本番の品質モニタリング
  - ユーザーフィードバックの活用

Mission 1: 評価パイプライン設計(20分)

要件

デプロイ前に実行する自動評価パイプラインを設計してください。

解答例

パイプライン構成

コード変更 / プロンプト変更 / ドキュメント更新


CI/CDトリガー

    ├─ テストデータセット読み込み(200件)
    ├─ RAGシステム実行 → 回答生成
    ├─ RAGAS評価実行
    │    ├── Faithfulness: 閾値 > 0.85
    │    ├── Answer Relevancy: 閾値 > 0.80
    │    ├── Context Precision: 閾値 > 0.75
    │    └── Context Recall: 閾値 > 0.80
    ├─ レイテンシチェック(p95 < 5秒)
    └─ コストチェック(平均リクエスト単価 < ¥10)


全チェックPass → デプロイ許可
いずれかFail → デプロイブロック + レポート生成

Mission 2: モニタリングダッシュボード(15分)

要件

本番環境の品質・パフォーマンス・コストを監視するダッシュボードを設計してください。

解答例
セクションパネルデータソース
品質👍/👎率の推移(日次)アプリケーションログ
品質ハルシネーション率(自動検知)LLM-as-Judge結果
品質「わかりません」率回答分類ログ
パフォーマンスTTFT p50/p95/p99APMメトリクス
パフォーマンスエラー率・フォールバック率APIログ
コスト日次コスト推移LLM API利用ログ
コストモデル別リクエスト割合ルーティングログ
コストキャッシュヒット率キャッシュメトリクス
RAG検索関連度スコア分布RAGパイプラインログ
RAGドキュメント参照頻度Top10検索ログ

Mission 3: フィードバックループ設計(15分)

要件

ユーザーフィードバックを品質改善に活かすプロセスを設計してください。

解答例

フィードバック収集

チャネル頻度内容
👍/👎ボタン全リクエスト即時のユーザー満足度
コメント欄任意具体的な改善ポイント
定期アンケート月次全体的な満足度・要望

分析・改善フロー

低評価回答の週次レビュー

    ├─ プロンプトの問題 → プロンプト修正 → 評価パイプラインで検証
    ├─ ドキュメント不足 → ドキュメント追加 → インデックス再構築
    ├─ 検索精度の問題 → エンベディング/検索パラメータ調整
    └─ モデルの限界 → モデル変更 or ファインチューニング検討

まとめ

ポイント内容
評価パイプラインデプロイ前にRAGASで自動品質ゲート
ダッシュボード品質・パフォーマンス・コストを一元監視
フィードバックユーザーの声を体系的に収集・分析・改善

チェックリスト

  • 自動評価パイプラインを設計できた
  • モニタリングダッシュボードを設計できた
  • フィードバックループを設計できた

次のステップへ

次はチェックポイントクイズで理解度を確認します。


推定読了時間: 50分