Step 2 確認クイズ
テキスト前処理と特徴抽出に関する確認クイズである。5問中4問以上の正解(80%以上)で合格となる。
Q1. トークナイゼーション
日本語テキストのトークナイゼーションに関して、正しい記述はどれか?
- A) 英語と同様にスペースで分割すればよい
- B) 形態素解析器(MeCab/Janome等)が必要
- C) 文字単位で分割するのが最も精度が高い
- D) BERTモデルではトークナイゼーションは不要
正解: B) 形態素解析器(MeCab/Janome等)が必要
解説: 日本語はスペースで単語が区切られていないため、形態素解析器を使って単語に分割する必要がある。BERTなどのモデルも内部でサブワードトークナイゼーションを行うが、その前段として形態素解析が活用される。
Q2. TF-IDFの原理
TF-IDFにおいて、ある単語のスコアが高くなる条件として正しいものはどれか?
- A) すべての文書に高頻度で出現する
- B) 特定の文書にのみ高頻度で出現する
- C) すべての文書に低頻度で出現する
- D) 特定の文書にのみ低頻度で出現する
正解: B) 特定の文書にのみ高頻度で出現する
解説: TF-IDFは「その文書での出現頻度が高く(TF高)」かつ「他の文書にはあまり出現しない(IDF高)」単語に高いスコアを与える。これにより、その文書を特徴づける重要な単語を抽出できる。すべての文書に出現する「の」「は」などの助詞はIDFが低くなり、スコアが抑制される。
Q3. Word2Vecの特性
Word2Vecに関する記述として、誤っているものはどれか?
- A) 意味的に類似した単語は近いベクトルにマッピングされる
- B) 「王 - 男 + 女 = 女王」のようなアナロジーを表現できる
- C) 文脈に応じて同じ単語でも異なるベクトルを出力する
- D) CBOWとSkip-gramの2つのアーキテクチャがある
正解: C) 文脈に応じて同じ単語でも異なるベクトルを出力する
解説: Word2Vecは各単語に1つの固定ベクトルを割り当てる。そのため「銀行」が金融機関の意味か川の岸の意味かに関わらず同じベクトルになる。文脈に応じて異なるベクトルを出力するのはBERTなどの文脈化された言語モデルの特徴。
Q4. Sentence Transformersの利点
Sentence TransformersがWord2Vecの平均プーリングより優れている点はどれか?
- A) 計算速度が速い
- B) メモリ使用量が少ない
- C) 文全体の意味と構造を考慮したベクトルを生成できる
- D) 語彙サイズの制限がない
正解: C) 文全体の意味と構造を考慮したベクトルを生成できる
解説: Word2Vecの平均プーリングは語順情報を失い、文の構造を捉えられない(「犬が猫を追う」と「猫が犬を追う」が同じベクトルになる)。Sentence Transformersはアテンション機構により文全体の意味と構造を考慮した文埋め込みを生成する。
Q5. 特徴抽出手法の選定
大量のテキスト(100万件)を高速に分類する必要がある場合、最初のベースラインとして最も適切な特徴抽出手法はどれか?
- A) Sentence Transformers
- B) TF-IDF
- C) Word2Vec + TF-IDF重み付き平均
- D) BERT埋め込み
正解: B) TF-IDF
解説: TF-IDFは計算速度が最も速く、メモリ効率も良い。100万件規模のデータでは、まずTF-IDFでベースラインの分類精度を確認し、その上で精度が不十分な場合にSentence TransformersやBERTなどの重い手法に移行するのが合理的なアプローチである。
結果
- 4問以上正解(80%以上): 合格。Step 3に進もう。
- 3問以下: Step 2のレッスンを復習してから再挑戦しよう。
推定所要時間: 30分