Step 2 確認クイズ

テキスト前処理と特徴抽出に関する確認クイズである。5問中4問以上の正解（80%以上）で合格となる。

Q1. トークナイゼーション

日本語テキストのトークナイゼーションに関して、正しい記述はどれか？

正解: B) 形態素解析器（MeCab/Janome等）が必要

解説: 日本語はスペースで単語が区切られていないため、形態素解析器を使って単語に分割する必要がある。BERTなどのモデルも内部でサブワードトークナイゼーションを行うが、その前段として形態素解析が活用される。

TF-IDFにおいて、ある単語のスコアが高くなる条件として正しいものはどれか？

正解: B) 特定の文書にのみ高頻度で出現する

解説: TF-IDFは「その文書での出現頻度が高く（TF高）」かつ「他の文書にはあまり出現しない（IDF高）」単語に高いスコアを与える。これにより、その文書を特徴づける重要な単語を抽出できる。すべての文書に出現する「の」「は」などの助詞はIDFが低くなり、スコアが抑制される。

Word2Vecに関する記述として、誤っているものはどれか？

正解: C) 文脈に応じて同じ単語でも異なるベクトルを出力する

解説: Word2Vecは各単語に1つの固定ベクトルを割り当てる。そのため「銀行」が金融機関の意味か川の岸の意味かに関わらず同じベクトルになる。文脈に応じて異なるベクトルを出力するのはBERTなどの文脈化された言語モデルの特徴。

Sentence TransformersがWord2Vecの平均プーリングより優れている点はどれか？

正解: C) 文全体の意味と構造を考慮したベクトルを生成できる

解説: Word2Vecの平均プーリングは語順情報を失い、文の構造を捉えられない（「犬が猫を追う」と「猫が犬を追う」が同じベクトルになる）。Sentence Transformersはアテンション機構により文全体の意味と構造を考慮した文埋め込みを生成する。

大量のテキスト（100万件）を高速に分類する必要がある場合、最初のベースラインとして最も適切な特徴抽出手法はどれか？

正解: B) TF-IDF

解説: TF-IDFは計算速度が最も速く、メモリ効率も良い。100万件規模のデータでは、まずTF-IDFでベースラインの分類精度を確認し、その上で精度が不十分な場合にSentence TransformersやBERTなどの重い手法に移行するのが合理的なアプローチである。

推定所要時間: 30分