LESSON

Step 3 確認クイズ

マルチモーダル分析に関する確認クイズである。5問中4問以上の正解で合格となる。


Q1. CLIP

CLIPが学習データなしで画像分類できる理由はどれか?

  • A) 画像のピクセル値を直接比較するため
  • B) 画像とテキストを共通の埋め込み空間で学習しているため
  • C) すべての画像カテゴリを事前に学習しているため
  • D) ルールベースで分類しているため

正解: B) 画像とテキストを共通の埋め込み空間で学習しているため

解説: CLIPは4億件の画像-テキストペアで対照学習を行い、画像とテキストを共通のベクトル空間にマッピングする。新しいカテゴリもテキスト記述として埋め込み、画像との類似度で分類できる。


Q2. マルチモーダル融合

早期融合と遅延融合の最大の違いはどれか?

  • A) 使用するプログラミング言語
  • B) 特徴量の結合タイミング(入力段階 vs 出力段階)
  • C) 必要なデータ量
  • D) モデルのサイズ

正解: B) 特徴量の結合タイミング(入力段階 vs 出力段階)

解説: 早期融合は特徴量抽出段階でモダリティを結合し相互作用を学習する。遅延融合は各モダリティを独立に処理した後、最終的な判定段階で統合する。


Q3. VLM応用

医療画像分析にVLMを使う際に最も重要な設計原則はどれか?

  • A) 推論速度の最大化
  • B) Human-in-the-Loopによる専門家の確認
  • C) モデルサイズの最小化
  • D) コストの最小化

正解: B) Human-in-the-Loopによる専門家の確認

解説: 医療分野ではVLMの判断ミスが重大な結果を招く可能性がある。VLMは支援ツールとして所見のドラフトを生成し、最終判断は必ず医療専門家が行うHuman-in-the-Loop設計が不可欠。


Q4. Cross-Attention

Cross-Attention融合が他の融合方式より優れている場面はどれか?

  • A) データ量が少ない場合
  • B) 画像とテキストの間に複雑な相互参照関係がある場合
  • C) 推論速度が重要な場合
  • D) モダリティが完全に独立している場合

正解: B) 画像とテキストの間に複雑な相互参照関係がある場合

解説: Cross-Attentionは「テキストのどの部分が画像のどの領域に関連するか」を動的に学習できる。例えば「左肺の影」というテキストと画像の対応する領域を関連づけるような複雑な相互参照に適している。


Q5. パイプライン

マルチモーダルパイプラインで信頼度が低い結果に対する最適な対応はどれか?

  • A) 結果を破棄する
  • B) 人間のレビューにルーティングする
  • C) 信頼度を無視して出力する
  • D) モデルを再学習する

正解: B) 人間のレビューにルーティングする

解説: 信頼度が低い結果は自動判定の精度が不十分なケースであり、人間の専門家にレビューをルーティングすることで品質を担保する。これが実運用での信頼性確保の基本パターン。


結果

  • 4問以上正解(80%以上): 合格。Step 3「マルチモーダル分析」を修了。
  • 3問以下: 各レッスンを復習してから再挑戦しよう。

推定所要時間: 30分