演習：PoCの設計と評価を行おう

ストーリー

田

田中VPoE

「PoC設計から評価まで一通り学んだ。ここでは、NetShop社のCS部門AIチャットボットのPoCを題材に、設計から評価まで一気通貫で取り組んでみよう。」

あなた

「請求書AI-OCRとは異なる種類のAIですね。自然言語処理系のPoCになるわけですか。」

あ

田

田中VPoE

「そうだ。AI-OCRとは検証すべきポイントが異なる。回答の正確性だけでなく、自然さや顧客体験も重要な評価軸になる。」

ミッション概要

項目	内容
演習タイトル	NetShop社 AIチャットボット PoC設計・評価
想定時間	90分
成果物	PoC計画書 + 成功基準 + 評価レポート

前提条件

AIチャットボットの検証要件

検証対象:
  - FAQ自動回答（配送状況、返品手続き、商品情報）
  - 問い合わせカテゴリ自動分類
  - 感情分析によるエスカレーション判定

現状データ:
  - FAQ: 500件（カテゴリ別に整理済み）
  - 過去の問い合わせログ: 10万件（6ヶ月分）
  - 顧客満足度: CSAT 3.2/5.0

利用候補AI:
  - LLMベースのチャットボット（RAG構成）
  - 問い合わせ分類モデル（テキスト分類）
  - 感情分析モデル（センチメント分析）

PoCデータ（検証結果）

FAQ回答検証（テスト500件）:
  正解: 430件、不正解: 45件、回答不能: 25件
  カテゴリ別:
    配送状況: 正解率92%（150件中138件）
    返品手続: 正解率84%（100件中84件）
    商品情報: 正解率88%（150件中132件）
    その他: 正解率76%（100件中76件）

分類精度（テスト1,000件）:
  正解: 920件、誤分類: 80件
  混同行列の主な誤り:
    「返品」→「クレーム」に誤分類: 30件
    「商品質問」→「返品」に誤分類: 20件

感情分析（テスト300件）:
  正解: 249件、誤判定: 51件
  特に「皮肉」「穏やかな不満」の検出精度が低い

応答時間:
  平均: 2.1秒、95%ile: 4.8秒、最大: 12.3秒

ユーザビリティ評価（CS担当者10名）:
  SUSスコア: 62点
  主なフィードバック:
    - 「回答は的確だが画面が見にくい」
    - 「エスカレーション時のスムーズさが足りない」
    - 「AIの確信度が分かりにくい」

Mission 1: PoC計画書の作成

要件

上記の検証要件に対するPoC計画書を作成してください。

仮説の定義: 3つの検証対象それぞれの仮説
スコープ: 検証範囲と除外範囲
タイムライン: 4週間の実施計画
チーム構成: 必要な役割と人数

解答例

仮説定義

#	検証対象	仮説	合格基準
H1	FAQ回答	LLMベースRAGでFAQ回答精度90%以上を達成できる	正答率90%以上
H2	自動分類	テキスト分類モデルで6カテゴリの分類精度F1 0.90以上	F1スコア0.90以上
H3	感情分析	感情分析で「怒り」の検出精度85%以上を達成できる	Recall 85%以上

スコープ

含む	含まない
配送状況、返品、商品情報の3カテゴリ	注文変更、クレーム対応
テキストチャットチャネル	電話、メール
日本語のみ	多言語対応
定型的な問い合わせ	複合的な問い合わせ

タイムライン

週	活動
Week 1	RAG環境構築、FAQデータ投入、分類モデル学習
Week 2	FAQ回答テスト、分類テスト、感情分析テスト
Week 3	CS担当者によるUAT、ユーザビリティ評価
Week 4	結果分析、レポート作成、判定会議

チーム構成

役割	人数	担当
PoCオーナー	1名	CSマネージャー
NLPエンジニア	1名	LLM/RAG構築
データエンジニア	1名	データ準備、環境構築
CS担当者	3名	UAT、業務観点評価

Mission 2: 成功基準の設計

要件

3段階（必達・目標・理想）の成功基準を設計してください。

技術的実現性: 精度、速度の基準
ビジネス効果: コスト削減、顧客満足度の基準
運用可能性: ユーザビリティ、保守性の基準

解答例

指標	必達基準	目標基準	理想基準
FAQ回答正答率	85%	90%	95%
カテゴリ分類F1	0.85	0.90	0.95
感情分析（怒り検出）	80%	85%	92%
応答時間（95%ile）	5秒以内	3秒以内	1秒以内
処理コスト/件	100円以下	50円以下	20円以下
SUSスコア	60以上	70以上	80以上
自動回答可能率	30%	40%	55%

Mission 3: PoC評価レポートの作成

要件

前提条件に記載されたPoCデータを使って、評価レポートを作成してください。

定量評価: 成績表と基準との比較
エラー分析: 主要な誤りの原因と対策
本番外挿: 月間30,000件への外挿推計
Go/No-Go判定: 推奨アクション

解答例

定量評価

指標	必達基準	実績	判定
FAQ回答正答率	85%	86%	必達達成・目標未達
カテゴリ分類精度	0.85	0.92	目標達成
感情分析精度	80%	83%	必達達成・目標未達
応答時間（95%ile）	5秒	4.8秒	必達達成・目標未達
SUSスコア	60	62	必達達成・目標未達

エラー分析

問題	原因	対策	工数
返品手続の回答精度84%	FAQの情報が曖昧	FAQ内容のリライト	1週間
皮肉の検出精度低	学習データに皮肉表現が少ない	皮肉表現のアノテーション追加	2週間
返品→クレームの誤分類	カテゴリの境界が曖昧	分類基準の再定義	3日
UIの見にくさ	確信度表示の欠如	ダッシュボードUI改善	1週間

本番外挿

月間30,000件に対する推計:
  AI自動回答可能: 30,000 × 86% × 対象カテゴリ率68% = 約17,500件
  人間対応: 約12,500件
  自動回答率: 約58%（改善後目標40%は達成見込み）

年間コスト削減推計:
  自動回答による削減: 17,500件 × 1,500円 × 12ヶ月 = 約3.15億円
  AI運用コスト: 約5,000万円/年
  純削減額: 約2.65億円/年

判定: Conditional Go

必達基準は全て達成。目標基準は一部未達だが、FAQ内容のリライトとUI改善（計2-3週間）で改善が見込まれる。改善後にパイロット移行を推奨。

達成度チェック

観点	達成基準
PoC計画	仮説・スコープ・タイムラインが具体的に設計されている
成功基準	3段階の定量基準が適切に設定されている
定量評価	基準との比較が明確で、判定が論理的である
エラー分析	原因の特定と具体的な対策が示されている
本番外挿	PoC結果から合理的な推計が行われている

推定所要時間: 90分