EXERCISE 90分

ストーリー

田中VPoE
「PoC設計から評価まで一通り学んだ。ここでは、NetShop社のCS部門AIチャットボットのPoCを題材に、設計から評価まで一気通貫で取り組んでみよう。」
あなた
「請求書AI-OCRとは異なる種類のAIですね。自然言語処理系のPoCになるわけですか。」
田中VPoE
「そうだ。AI-OCRとは検証すべきポイントが異なる。回答の正確性だけでなく、自然さや顧客体験も重要な評価軸になる。」

ミッション概要

項目内容
演習タイトルNetShop社 AIチャットボット PoC設計・評価
想定時間90分
成果物PoC計画書 + 成功基準 + 評価レポート

前提条件

AIチャットボットの検証要件

検証対象:
  - FAQ自動回答(配送状況、返品手続き、商品情報)
  - 問い合わせカテゴリ自動分類
  - 感情分析によるエスカレーション判定

現状データ:
  - FAQ: 500件(カテゴリ別に整理済み)
  - 過去の問い合わせログ: 10万件(6ヶ月分)
  - 顧客満足度: CSAT 3.2/5.0

利用候補AI:
  - LLMベースのチャットボット(RAG構成)
  - 問い合わせ分類モデル(テキスト分類)
  - 感情分析モデル(センチメント分析)

PoCデータ(検証結果)

FAQ回答検証(テスト500件):
  正解: 430件、不正解: 45件、回答不能: 25件
  カテゴリ別:
    配送状況: 正解率92%(150件中138件)
    返品手続: 正解率84%(100件中84件)
    商品情報: 正解率88%(150件中132件)
    その他: 正解率76%(100件中76件)

分類精度(テスト1,000件):
  正解: 920件、誤分類: 80件
  混同行列の主な誤り:
    「返品」→「クレーム」に誤分類: 30件
    「商品質問」→「返品」に誤分類: 20件

感情分析(テスト300件):
  正解: 249件、誤判定: 51件
  特に「皮肉」「穏やかな不満」の検出精度が低い

応答時間:
  平均: 2.1秒、95%ile: 4.8秒、最大: 12.3秒

ユーザビリティ評価(CS担当者10名):
  SUSスコア: 62点
  主なフィードバック:
    - 「回答は的確だが画面が見にくい」
    - 「エスカレーション時のスムーズさが足りない」
    - 「AIの確信度が分かりにくい」

Mission 1: PoC計画書の作成

要件

上記の検証要件に対するPoC計画書を作成してください。

  1. 仮説の定義: 3つの検証対象それぞれの仮説
  2. スコープ: 検証範囲と除外範囲
  3. タイムライン: 4週間の実施計画
  4. チーム構成: 必要な役割と人数
解答例

仮説定義

#検証対象仮説合格基準
H1FAQ回答LLMベースRAGでFAQ回答精度90%以上を達成できる正答率90%以上
H2自動分類テキスト分類モデルで6カテゴリの分類精度F1 0.90以上F1スコア0.90以上
H3感情分析感情分析で「怒り」の検出精度85%以上を達成できるRecall 85%以上

スコープ

含む含まない
配送状況、返品、商品情報の3カテゴリ注文変更、クレーム対応
テキストチャットチャネル電話、メール
日本語のみ多言語対応
定型的な問い合わせ複合的な問い合わせ

タイムライン

活動
Week 1RAG環境構築、FAQデータ投入、分類モデル学習
Week 2FAQ回答テスト、分類テスト、感情分析テスト
Week 3CS担当者によるUAT、ユーザビリティ評価
Week 4結果分析、レポート作成、判定会議

チーム構成

役割人数担当
PoCオーナー1名CSマネージャー
NLPエンジニア1名LLM/RAG構築
データエンジニア1名データ準備、環境構築
CS担当者3名UAT、業務観点評価

Mission 2: 成功基準の設計

要件

3段階(必達・目標・理想)の成功基準を設計してください。

  1. 技術的実現性: 精度、速度の基準
  2. ビジネス効果: コスト削減、顧客満足度の基準
  3. 運用可能性: ユーザビリティ、保守性の基準
解答例
指標必達基準目標基準理想基準
FAQ回答正答率85%90%95%
カテゴリ分類F10.850.900.95
感情分析(怒り検出)80%85%92%
応答時間(95%ile)5秒以内3秒以内1秒以内
処理コスト/件100円以下50円以下20円以下
SUSスコア60以上70以上80以上
自動回答可能率30%40%55%

Mission 3: PoC評価レポートの作成

要件

前提条件に記載されたPoCデータを使って、評価レポートを作成してください。

  1. 定量評価: 成績表と基準との比較
  2. エラー分析: 主要な誤りの原因と対策
  3. 本番外挿: 月間30,000件への外挿推計
  4. Go/No-Go判定: 推奨アクション
解答例

定量評価

指標必達基準実績判定
FAQ回答正答率85%86%必達達成・目標未達
カテゴリ分類精度0.850.92目標達成
感情分析精度80%83%必達達成・目標未達
応答時間(95%ile)5秒4.8秒必達達成・目標未達
SUSスコア6062必達達成・目標未達

エラー分析

問題原因対策工数
返品手続の回答精度84%FAQの情報が曖昧FAQ内容のリライト1週間
皮肉の検出精度低学習データに皮肉表現が少ない皮肉表現のアノテーション追加2週間
返品→クレームの誤分類カテゴリの境界が曖昧分類基準の再定義3日
UIの見にくさ確信度表示の欠如ダッシュボードUI改善1週間

本番外挿

月間30,000件に対する推計:
  AI自動回答可能: 30,000 × 86% × 対象カテゴリ率68% = 約17,500件
  人間対応: 約12,500件
  自動回答率: 約58%(改善後目標40%は達成見込み)

年間コスト削減推計:
  自動回答による削減: 17,500件 × 1,500円 × 12ヶ月 = 約3.15億円
  AI運用コスト: 約5,000万円/年
  純削減額: 約2.65億円/年

判定: Conditional Go

必達基準は全て達成。目標基準は一部未達だが、FAQ内容のリライトとUI改善(計2-3週間)で改善が見込まれる。改善後にパイロット移行を推奨。


達成度チェック

観点達成基準
PoC計画仮説・スコープ・タイムラインが具体的に設計されている
成功基準3段階の定量基準が適切に設定されている
定量評価基準との比較が明確で、判定が論理的である
エラー分析原因の特定と具体的な対策が示されている
本番外挿PoC結果から合理的な推計が行われている

推定所要時間: 90分