ストーリー
シナリオ
企業: SaaS企業「CloudServe」
目的: カスタマーサポートの60%をAIで自動回答
データ:
- ヘルプドキュメント: 500ページ
- FAQ: 1,000件
- 過去のサポートチケット: 50,000件
要件:
- 月間10万件のサポート問い合わせ
- 回答精度: 90%以上(ユーザー満足度)
- レスポンス: 初回トークン2秒以内
- エスカレーション: AIが回答できない場合は人間に転送
- 月額コスト: 100万円以内
Part 1: RAGアーキテクチャ設計(20分)
要件
カスタマーサポートAIのRAGアーキテクチャを設計してください。
解答例
ユーザー質問
│
▼
クエリ分析・リライト
│
├─ FAQ完全一致 → 定型回答(LLM不要)
│
▼
Hybrid Search(ベクトル + キーワード)
│
▼
Re-ranking(Cross-encoder)
│
▼
コンテキスト組み立て(Top-5ドキュメント)
│
▼
LLM生成(ストリーミング)
│
├─ 信頼度高 → 回答返却
└─ 信頼度低 → 人間エスカレーション
技術選定
| コンポーネント | 選定 | 理由 |
|---|---|---|
| ベクトルDB | pgvector(PostgreSQL拡張) | 既存DB活用、運用コスト低 |
| エンベディング | text-embedding-3-small | コスト効率、日本語対応 |
| LLM | Claude Sonnet(メイン)+ Haiku(簡単な質問) | コスト/品質バランス |
| Re-ranker | Cohere Rerank | 検索精度向上 |
Part 2: プロンプト設計(15分)
要件
カスタマーサポートAIのシステムプロンプトと回答品質基準を設計してください。
解答例
あなたはCloudServeのカスタマーサポートAIです。
## ルール
1. 提供されたドキュメントの情報のみに基づいて回答してください
2. ドキュメントに情報がない場合は「この質問については担当者にお繋ぎします」と回答
3. 回答は簡潔に、ステップバイステップで説明
4. 技術用語は平易な言葉で補足
5. 推測や独自の解釈は加えない
## 出力フォーマット
- 回答本文(100-300文字)
- 参考ドキュメントリンク(あれば)
- 信頼度: HIGH / MEDIUM / LOW
信頼度判定基準
| 信頼度 | 条件 | アクション |
|---|---|---|
| HIGH | 検索スコア > 0.85、回答がコンテキストに完全一致 | 自動回答 |
| MEDIUM | 検索スコア 0.70-0.85 | 回答表示 + 「不十分でしたら担当者に繋ぎます」 |
| LOW | 検索スコア < 0.70 | 自動エスカレーション |
Part 3: コスト設計(15分)
要件
月額100万円以内で月間10万リクエストを処理するコスト計画を策定してください。
解答例
| カテゴリ | 割合 | 処理方法 | 単価 | 月額 |
|---|---|---|---|---|
| FAQ一致 | 30% | ルールベース(LLM不要) | ¥0.1 | ¥3,000 |
| 簡単 | 40% | Haiku + キャッシュ | ¥3 | ¥120,000 |
| 普通 | 25% | Sonnet | ¥15 | ¥375,000 |
| 複雑 | 5% | Sonnet(長コンテキスト) | ¥30 | ¥150,000 |
インフラコスト
| 項目 | 月額 |
|---|---|
| LLM API | ¥648,000 |
| pgvector(RDS) | ¥50,000 |
| Re-ranker API | ¥100,000 |
| アプリサーバー | ¥80,000 |
| 合計 | ¥878,000 |
予算内(100万円以内)に収まる。
Part 4: 評価・モニタリング設計(20分)
要件
デプロイ前の評価パイプラインと本番モニタリングを設計してください。
解答例
デプロイ前評価
| メトリクス | 閾値 | テストデータ |
|---|---|---|
| Faithfulness | > 0.90 | 200件の手動テストセット |
| Answer Relevancy | > 0.85 | 同上 |
| エスカレーション率 | < 40% | 同上 |
| p95レイテンシ | < 5秒 | 同上 |
本番モニタリング
| 指標 | 閾値 | アクション |
|---|---|---|
| 👎率 | > 15% | アラート → プロンプト/検索レビュー |
| エスカレーション率 | > 40% | ドキュメント拡充検討 |
| TTFT p95 | > 3秒 | インフラスケール検討 |
| 日次コスト | > ¥40,000 | コスト分析 |
Part 5: リリース計画(20分)
要件
段階的なリリース計画を策定してください。
解答例
| フェーズ | 期間 | 内容 | 成功基準 |
|---|---|---|---|
| Alpha | 2週間 | 社内テスト(50名) | 満足度 > 80% |
| Beta | 2週間 | 一部顧客(1,000社中50社) | エスカレーション率 < 40% |
| GA 10% | 2週間 | 10%のトラフィック | 👎率 < 15% |
| GA 50% | 2週間 | 50%のトラフィック | SLO全指標クリア |
| GA 100% | - | 全トラフィック | 安定運用 |
ロールバック基準
- 👎率 > 25% → 即座に前フェーズに戻す
- エスカレーション率 > 60% → 即座に前フェーズに戻す
- P1インシデント発生 → 即座に全停止
まとめ
| ポイント | 内容 |
|---|---|
| アーキテクチャ | Hybrid Search + Re-ranking + モデルルーティング |
| プロンプト | 明確なルールと信頼度判定でエスカレーション制御 |
| コスト | ルールベース + モデルルーティングで予算内に収める |
| 評価 | デプロイ前ゲート + 本番モニタリングの二重チェック |
| リリース | 段階的ロールアウトとロールバック基準 |
チェックリスト
- RAGアーキテクチャを設計できた
- プロンプトと信頼度判定を設計できた
- コスト計画を予算内に収められた
- 評価パイプラインとモニタリングを設計できた
- 段階的リリース計画を策定できた
次のステップへ
最後は卒業クイズです。Month 5の全体を振り返りましょう。
推定読了時間: 90分