ストーリー
田
田中VPoE
「PoC設計から評価まで一通り学んだ。ここでは、NetShop社のCS部門AIチャットボットのPoCを題材に、設計から評価まで一気通貫で取り組んでみよう。」
あなた
「請求書AI-OCRとは異なる種類のAIですね。自然言語処理系のPoCになるわけですか。」
あ
田
田中VPoE
「そうだ。AI-OCRとは検証すべきポイントが異なる。回答の正確性だけでなく、自然さや顧客体験も重要な評価軸になる。」
ミッション概要
| 項目 | 内容 |
|---|
| 演習タイトル | NetShop社 AIチャットボット PoC設計・評価 |
| 想定時間 | 90分 |
| 成果物 | PoC計画書 + 成功基準 + 評価レポート |
前提条件
AIチャットボットの検証要件
検証対象:
- FAQ自動回答(配送状況、返品手続き、商品情報)
- 問い合わせカテゴリ自動分類
- 感情分析によるエスカレーション判定
現状データ:
- FAQ: 500件(カテゴリ別に整理済み)
- 過去の問い合わせログ: 10万件(6ヶ月分)
- 顧客満足度: CSAT 3.2/5.0
利用候補AI:
- LLMベースのチャットボット(RAG構成)
- 問い合わせ分類モデル(テキスト分類)
- 感情分析モデル(センチメント分析)
PoCデータ(検証結果)
FAQ回答検証(テスト500件):
正解: 430件、不正解: 45件、回答不能: 25件
カテゴリ別:
配送状況: 正解率92%(150件中138件)
返品手続: 正解率84%(100件中84件)
商品情報: 正解率88%(150件中132件)
その他: 正解率76%(100件中76件)
分類精度(テスト1,000件):
正解: 920件、誤分類: 80件
混同行列の主な誤り:
「返品」→「クレーム」に誤分類: 30件
「商品質問」→「返品」に誤分類: 20件
感情分析(テスト300件):
正解: 249件、誤判定: 51件
特に「皮肉」「穏やかな不満」の検出精度が低い
応答時間:
平均: 2.1秒、95%ile: 4.8秒、最大: 12.3秒
ユーザビリティ評価(CS担当者10名):
SUSスコア: 62点
主なフィードバック:
- 「回答は的確だが画面が見にくい」
- 「エスカレーション時のスムーズさが足りない」
- 「AIの確信度が分かりにくい」
Mission 1: PoC計画書の作成
要件
上記の検証要件に対するPoC計画書を作成してください。
- 仮説の定義: 3つの検証対象それぞれの仮説
- スコープ: 検証範囲と除外範囲
- タイムライン: 4週間の実施計画
- チーム構成: 必要な役割と人数
解答例
仮説定義
| # | 検証対象 | 仮説 | 合格基準 |
|---|
| H1 | FAQ回答 | LLMベースRAGでFAQ回答精度90%以上を達成できる | 正答率90%以上 |
| H2 | 自動分類 | テキスト分類モデルで6カテゴリの分類精度F1 0.90以上 | F1スコア0.90以上 |
| H3 | 感情分析 | 感情分析で「怒り」の検出精度85%以上を達成できる | Recall 85%以上 |
スコープ
| 含む | 含まない |
|---|
| 配送状況、返品、商品情報の3カテゴリ | 注文変更、クレーム対応 |
| テキストチャットチャネル | 電話、メール |
| 日本語のみ | 多言語対応 |
| 定型的な問い合わせ | 複合的な問い合わせ |
タイムライン
| 週 | 活動 |
|---|
| Week 1 | RAG環境構築、FAQデータ投入、分類モデル学習 |
| Week 2 | FAQ回答テスト、分類テスト、感情分析テスト |
| Week 3 | CS担当者によるUAT、ユーザビリティ評価 |
| Week 4 | 結果分析、レポート作成、判定会議 |
チーム構成
| 役割 | 人数 | 担当 |
|---|
| PoCオーナー | 1名 | CSマネージャー |
| NLPエンジニア | 1名 | LLM/RAG構築 |
| データエンジニア | 1名 | データ準備、環境構築 |
| CS担当者 | 3名 | UAT、業務観点評価 |
Mission 2: 成功基準の設計
要件
3段階(必達・目標・理想)の成功基準を設計してください。
- 技術的実現性: 精度、速度の基準
- ビジネス効果: コスト削減、顧客満足度の基準
- 運用可能性: ユーザビリティ、保守性の基準
解答例
| 指標 | 必達基準 | 目標基準 | 理想基準 |
|---|
| FAQ回答正答率 | 85% | 90% | 95% |
| カテゴリ分類F1 | 0.85 | 0.90 | 0.95 |
| 感情分析(怒り検出) | 80% | 85% | 92% |
| 応答時間(95%ile) | 5秒以内 | 3秒以内 | 1秒以内 |
| 処理コスト/件 | 100円以下 | 50円以下 | 20円以下 |
| SUSスコア | 60以上 | 70以上 | 80以上 |
| 自動回答可能率 | 30% | 40% | 55% |
Mission 3: PoC評価レポートの作成
要件
前提条件に記載されたPoCデータを使って、評価レポートを作成してください。
- 定量評価: 成績表と基準との比較
- エラー分析: 主要な誤りの原因と対策
- 本番外挿: 月間30,000件への外挿推計
- Go/No-Go判定: 推奨アクション
解答例
定量評価
| 指標 | 必達基準 | 実績 | 判定 |
|---|
| FAQ回答正答率 | 85% | 86% | 必達達成・目標未達 |
| カテゴリ分類精度 | 0.85 | 0.92 | 目標達成 |
| 感情分析精度 | 80% | 83% | 必達達成・目標未達 |
| 応答時間(95%ile) | 5秒 | 4.8秒 | 必達達成・目標未達 |
| SUSスコア | 60 | 62 | 必達達成・目標未達 |
エラー分析
| 問題 | 原因 | 対策 | 工数 |
|---|
| 返品手続の回答精度84% | FAQの情報が曖昧 | FAQ内容のリライト | 1週間 |
| 皮肉の検出精度低 | 学習データに皮肉表現が少ない | 皮肉表現のアノテーション追加 | 2週間 |
| 返品→クレームの誤分類 | カテゴリの境界が曖昧 | 分類基準の再定義 | 3日 |
| UIの見にくさ | 確信度表示の欠如 | ダッシュボードUI改善 | 1週間 |
本番外挿
月間30,000件に対する推計:
AI自動回答可能: 30,000 × 86% × 対象カテゴリ率68% = 約17,500件
人間対応: 約12,500件
自動回答率: 約58%(改善後目標40%は達成見込み)
年間コスト削減推計:
自動回答による削減: 17,500件 × 1,500円 × 12ヶ月 = 約3.15億円
AI運用コスト: 約5,000万円/年
純削減額: 約2.65億円/年
判定: Conditional Go
必達基準は全て達成。目標基準は一部未達だが、FAQ内容のリライトとUI改善(計2-3週間)で改善が見込まれる。改善後にパイロット移行を推奨。
達成度チェック
| 観点 | 達成基準 |
|---|
| PoC計画 | 仮説・スコープ・タイムラインが具体的に設計されている |
| 成功基準 | 3段階の定量基準が適切に設定されている |
| 定量評価 | 基準との比較が明確で、判定が論理的である |
| エラー分析 | 原因の特定と具体的な対策が示されている |
| 本番外挿 | PoC結果から合理的な推計が行われている |
推定所要時間: 90分