Transformerクイズ
Step 4 で学んだ Transformer アーキテクチャの知識を確認しましょう。
Q1. Self-Attention の特徴
Self-Attention が RNN と比べて優れている点はどれですか?
- A: パラメータ数が常に少ない
- B: 長距離の依存関係を直接捉えられ、並列計算も可能
- C: 計算量が常に少ない
- D: 系列の順序情報を自動的に学習する
正解: B
解説: Self-Attention は各トークンが他のすべてのトークンを直接参照できるため、長距離の依存関係を捉えやすく、また各位置の計算が独立しているため並列化が容易です。ただし計算量は O(n^2) で系列長が長いと増加し、順序情報は位置エンコーディングで明示的に与える必要があります。
Q2. Multi-Head Attention
Multi-Head Attention の目的として最も適切なものはどれですか?
- A: 計算速度を向上させるため
- B: パラメータ数を削減するため
- C: 異なる観点(文法的関係、意味的関係など)から入力間の関係を学習するため
- D: 過学習を防止するため
正解: C
解説: Multi-Head Attention は入力を複数のヘッドに分割し、各ヘッドが異なる種類の関係(文法、意味、近接性など)を学習します。これにより、単一の Attention では捉えきれない多様な関係性を表現できます。
Q3. BERT と GPT の違い
BERT と GPT の最も本質的な違いはどれですか?
- A: BERT は英語専用、GPT は多言語対応
- B: BERT は Encoder ベースで双方向、GPT は Decoder ベースで一方向(自己回帰)
- C: BERT の方が常にパラメータ数が多い
- D: GPT は画像も処理できるが、BERT はテキストのみ
正解: B
解説: BERT は Transformer の Encoder を使い、入力テキストの前後両方の文脈を参照します(双方向)。GPT は Decoder を使い、左から右へ順に生成する自己回帰モデルです。この設計の違いにより、BERT はテキスト理解、GPT はテキスト生成に適しています。
Q4. 位置エンコーディング
Transformer に位置エンコーディングが必要な理由はどれですか?
- A: 計算量を削減するため
- B: Self-Attention は入力の順序情報を持たないため、明示的に位置を与える必要があるから
- C: 学習率を自動調整するため
- D: バッチサイズを柔軟に変更できるようにするため
正解: B
解説: Self-Attention は集合(Set)に対する操作であり、入力の順序を区別しません。「猫が犬を追いかける」と「犬が猫を追いかける」が同じ表現になってしまいます。位置エンコーディングで各トークンに位置情報を付与することで、語順を考慮した処理が可能になります。
Q5. LLM の課題
大規模言語モデル(LLM)のハルシネーションについて正しい説明はどれですか?
- A: モデルが学習データを暗記して出力する問題
- B: 事実と異なる情報を自信を持って生成する問題
- C: 推論に時間がかかりすぎる問題
- D: 入力テキストが長すぎると処理できない問題
正解: B
解説: ハルシネーション(幻覚)は、LLM が存在しない事実や誤った情報をあたかも正しいかのように生成してしまう現象です。対策としては RAG(検索拡張生成)によるファクトチェック、信頼できるデータソースとの照合、人間によるレビューなどがあります。
結果
5問中の正解数を確認してください。
- 5問正解: 素晴らしい!Step 5 に進みましょう。
- 4問正解: 合格です。間違えた問題を復習してから次へ進みましょう。
- 3問以下: Step 4 のレッスンを再度読み直してから、もう一度挑戦しましょう。
推定所要時間: 30分