Step 3 確認クイズ

マルチモーダル分析に関する確認クイズである。5問中4問以上の正解で合格となる。

Q1. CLIP

CLIPが学習データなしで画像分類できる理由はどれか？

正解: B) 画像とテキストを共通の埋め込み空間で学習しているため

解説: CLIPは4億件の画像-テキストペアで対照学習を行い、画像とテキストを共通のベクトル空間にマッピングする。新しいカテゴリもテキスト記述として埋め込み、画像との類似度で分類できる。

早期融合と遅延融合の最大の違いはどれか？

正解: B) 特徴量の結合タイミング（入力段階 vs 出力段階）

解説: 早期融合は特徴量抽出段階でモダリティを結合し相互作用を学習する。遅延融合は各モダリティを独立に処理した後、最終的な判定段階で統合する。

医療画像分析にVLMを使う際に最も重要な設計原則はどれか？

正解: B) Human-in-the-Loopによる専門家の確認

解説: 医療分野ではVLMの判断ミスが重大な結果を招く可能性がある。VLMは支援ツールとして所見のドラフトを生成し、最終判断は必ず医療専門家が行うHuman-in-the-Loop設計が不可欠。

Cross-Attention融合が他の融合方式より優れている場面はどれか？

正解: B) 画像とテキストの間に複雑な相互参照関係がある場合

解説: Cross-Attentionは「テキストのどの部分が画像のどの領域に関連するか」を動的に学習できる。例えば「左肺の影」というテキストと画像の対応する領域を関連づけるような複雑な相互参照に適している。

マルチモーダルパイプラインで信頼度が低い結果に対する最適な対応はどれか？

正解: B) 人間のレビューにルーティングする

解説: 信頼度が低い結果は自動判定の精度が不十分なケースであり、人間の専門家にレビューをルーティングすることで品質を担保する。これが実運用での信頼性確保の基本パターン。

推定所要時間: 30分