ストーリー
ミッション概要
| ミッション | テーマ | 目安時間 |
|---|---|---|
| Mission 1 | 評価パイプラインの設計 | 20分 |
| Mission 2 | モニタリングダッシュボード設計 | 15分 |
| Mission 3 | フィードバックループの設計 | 15分 |
前提シナリオ
サービス: 社内ナレッジ検索チャットボット
ユーザー: 社員5,000名
月間リクエスト: 50万件
評価要件:
- デプロイ前の品質ゲート
- 本番の品質モニタリング
- ユーザーフィードバックの活用
Mission 1: 評価パイプライン設計(20分)
要件
デプロイ前に実行する自動評価パイプラインを設計してください。
解答例
パイプライン構成
コード変更 / プロンプト変更 / ドキュメント更新
│
▼
CI/CDトリガー
│
├─ テストデータセット読み込み(200件)
├─ RAGシステム実行 → 回答生成
├─ RAGAS評価実行
│ ├── Faithfulness: 閾値 > 0.85
│ ├── Answer Relevancy: 閾値 > 0.80
│ ├── Context Precision: 閾値 > 0.75
│ └── Context Recall: 閾値 > 0.80
├─ レイテンシチェック(p95 < 5秒)
└─ コストチェック(平均リクエスト単価 < ¥10)
│
▼
全チェックPass → デプロイ許可
いずれかFail → デプロイブロック + レポート生成
Mission 2: モニタリングダッシュボード(15分)
要件
本番環境の品質・パフォーマンス・コストを監視するダッシュボードを設計してください。
解答例
| セクション | パネル | データソース |
|---|---|---|
| 品質 | 👍/👎率の推移(日次) | アプリケーションログ |
| 品質 | ハルシネーション率(自動検知) | LLM-as-Judge結果 |
| 品質 | 「わかりません」率 | 回答分類ログ |
| パフォーマンス | TTFT p50/p95/p99 | APMメトリクス |
| パフォーマンス | エラー率・フォールバック率 | APIログ |
| コスト | 日次コスト推移 | LLM API利用ログ |
| コスト | モデル別リクエスト割合 | ルーティングログ |
| コスト | キャッシュヒット率 | キャッシュメトリクス |
| RAG | 検索関連度スコア分布 | RAGパイプラインログ |
| RAG | ドキュメント参照頻度Top10 | 検索ログ |
Mission 3: フィードバックループ設計(15分)
要件
ユーザーフィードバックを品質改善に活かすプロセスを設計してください。
解答例
フィードバック収集
| チャネル | 頻度 | 内容 |
|---|---|---|
| 👍/👎ボタン | 全リクエスト | 即時のユーザー満足度 |
| コメント欄 | 任意 | 具体的な改善ポイント |
| 定期アンケート | 月次 | 全体的な満足度・要望 |
分析・改善フロー
低評価回答の週次レビュー
│
├─ プロンプトの問題 → プロンプト修正 → 評価パイプラインで検証
├─ ドキュメント不足 → ドキュメント追加 → インデックス再構築
├─ 検索精度の問題 → エンベディング/検索パラメータ調整
└─ モデルの限界 → モデル変更 or ファインチューニング検討
まとめ
| ポイント | 内容 |
|---|---|
| 評価パイプライン | デプロイ前にRAGASで自動品質ゲート |
| ダッシュボード | 品質・パフォーマンス・コストを一元監視 |
| フィードバック | ユーザーの声を体系的に収集・分析・改善 |
チェックリスト
- 自動評価パイプラインを設計できた
- モニタリングダッシュボードを設計できた
- フィードバックループを設計できた
次のステップへ
次はチェックポイントクイズで理解度を確認します。
推定読了時間: 50分