総合確認クイズ

Month 5「テキストデータで業務を革新しよう」の総合確認クイズである。10問中8問以上の正解（80%以上）で合格となる。

Q1. トークナイゼーション

日本語テキスト処理でトークナイゼーションが英語より複雑な理由はどれか？

A) 文字数が多い
B) 単語間にスペースがなく形態素解析が必要
C) 文法が難しい
D) 語彙数が少ない

正解: B) 単語間にスペースがなく形態素解析が必要

解説: 英語はスペースで単語が区切られるが、日本語は「私は今日東京に行く」のように区切りがない。MeCabやJanome等の形態素解析器で単語を分割する必要がある。

Q2. TF-IDF

TF-IDF値が高い単語の特徴として正しいものはどれか？

A) すべての文書に頻出する単語
B) 特定の文書に頻出し、他の文書にはあまり出現しない単語
C) 文書中で最も少ない単語
D) ストップワード

正解: B) 特定の文書に頻出し、他の文書にはあまり出現しない単語

解説: TF(単語頻度)が高く、IDF(逆文書頻度)も高い単語、つまり特定の文書を特徴づける重要な単語のTF-IDF値が高くなる。「の」「は」のような一般的な単語はIDFが低くなる。

Q3. Word Embeddings

Word2Vecで「king - man + woman ≈ queen」が成立する理由はどれか？

A) 辞書に定義されているため
B) 単語の意味的関係がベクトル空間上の方向として捉えられるため
C) ランダムに学習した結果
D) 文法規則をハードコーディングしているため

正解: B) 単語の意味的関係がベクトル空間上の方向として捉えられるため

解説: Word2Vecは大量のテキストから文脈パターンを学習し、「性別」のような意味的関係がベクトル空間上の一貫した方向として表現される。この性質により類推演算が可能になる。

Q4. BERT vs SVM

BERT Fine-tuningがTF-IDF+SVMより高精度になりやすい理由はどれか？

A) SVMは線形モデルだから
B) BERTは文脈を考慮した単語表現を生成できるため
C) BERTの方がパラメータが少ないから
D) SVMは深層学習モデルではないから

正解: B) BERTは文脈を考慮した単語表現を生成できるため

解説: TF-IDFは単語の出現頻度のみで文脈を無視する。BERTはTransformerの自己注意機構により、同じ単語でも周囲の文脈に応じて異なる表現を生成でき、多義語や否定の理解に優れる。

Q5. LLM Zero-shot

LLM Zero-shotが適さない場面はどれか？

A) 学習データがないPoCフェーズ
B) 月100万件の高速大量処理
C) 新しいカテゴリの追加テスト
D) プロトタイプの素早い検証

正解: B) 月100万件の高速大量処理

解説: LLM Zero-shotは1件あたり500ms+数円のコストがかかる。月100万件では処理時間とコストが膨大になり現実的でない。大量処理にはBERT Fine-tuningや従来MLが適している。

Q6. RAG

RAGベース回答生成でハルシネーションが発生する最も一般的な原因はどれか？

A) FAQデータベースが大きすぎる
B) 検索されたFAQが質問に関連しておらず、LLMが推測で回答を生成する
C) LLMの学習データが古い
D) プロンプトが長すぎる

正解: B) 検索されたFAQが質問に関連しておらず、LLMが推測で回答を生成する

解説: RAGの検索フェーズで関連性の低いFAQが返された場合、LLMは不十分なコンテキストから回答を「補完」しようとし、事実に基づかない内容（ハルシネーション）を生成するリスクがある。

Q7. エスカレーション

エスカレーション判断で「安全側に倒す」設計が重要な理由はどれか？

A) コスト削減のため
B) 法的問題や深刻なクレームの見逃しが致命的な損失につながるため
C) AIの処理速度を向上させるため
D) 人間の作業量を増やすため

正解: B) 法的問題や深刻なクレームの見逃しが致命的な損失につながるため

解説: 不要エスカレーション（偽陽性）は人的コスト増だが、見逃し（偽陰性）は顧客離反やブランド毀損、法的リスクにつながる。非対称なコスト構造のため、多少の偽陽性を許容して見逃しを最小化する。

Q8. CSAT

AIサポートのCSATを向上させるために最も効果的なアクションはどれか？

A) 回答速度を上げる
B) 低CSAT回答のパターンを分析しFAQ拡充とプロンプト改善を行う
C) すべてを人間対応にする
D) アンケートの選択肢を減らす

正解: B) 低CSAT回答のパターンを分析しFAQ拡充とプロンプト改善を行う

解説: CSAT改善にはデータドリブンなアプローチが最も効果的。低スコア回答の原因パターン（FAQ不足、網羅性不足等）を特定し、根本原因を解消するFAQ拡充とプロンプト改善を行う。

Q9. 感情分析

カスタマーサポートにおける感情分析の最も重要な活用先はどれか？

A) マーケティングレポートの作成
B) エスカレーション判断と対応優先度の決定
C) 商品レビューの分析
D) SNSモニタリング

正解: B) エスカレーション判断と対応優先度の決定

解説: カスタマーサポートでは、怒りや強い不満を検知して適切にエスカレーションし、緊急度の高い問い合わせを優先対応することが顧客満足度維持の鍵である。

Q10. 総合

カスタマーサポートAIエージェントの導入で最も重要な成功要因はどれか？

A) 最新のLLMモデルを使用すること
B) 段階的導入と継続的な品質改善サイクルの確立
C) すべての問い合わせをAIで対応すること
D) 開発スピードを最優先すること

正解: B) 段階的導入と継続的な品質改善サイクルの確立

解説: AIサポートの成功は、一度の構築ではなく、パイロット→段階展開→モニタリング→改善の継続的サイクルにかかっている。品質評価体制と改善フローを確立し、データに基づいて持続的に改善することが成功の鍵。

結果

8問以上正解（80%以上）: 合格。Month 5「テキストデータで業務を革新しよう」を修了。
7問以下: 各Stepのレッスンを復習してから再挑戦しよう。

推定所要時間: 30分