クイズの説明
Month 4「マルチモーダルAIを活用しよう」の全範囲から出題される卒業クイズです。
- 全10問
- 合格ライン: 80%(8問正解)
- 不合格の場合は該当Stepを復習してから再挑戦してください
問題
Q1. Vision Language Model(VLM)において、Projection Layerの役割として最も適切なものはどれですか?
- A) 画像をピクセル単位で解析する
- B) 画像の特徴ベクトルをLLMの入力空間にマッピングする
- C) テキストをトークンに分割する
- D) 生成されたテキストの文法を検証する
答えを見る
正解: B
Projection Layerは、Visual Encoderが出力した画像の特徴ベクトルを、LLMが理解できる入力空間(埋め込み空間)に変換する役割を担います。これにより、画像情報とテキスト情報を同じ空間で統合的に処理できるようになります。
Q2. 画像生成AIにおいて、Stable Diffusionが使用している生成手法はどれですか?
- A) GAN(Generative Adversarial Network)
- B) VAE(Variational Autoencoder)のみ
- C) 拡散モデル(Diffusion Model)
- D) フローベース生成モデル
答えを見る
正解: C
Stable Diffusionは拡散モデル(Diffusion Model)を採用しています。ノイズから段階的にデノイジングすることで画像を生成する手法で、GANと比べて学習が安定し、多様な画像を生成できます。内部的にはVAEも使用していますが、主要な生成手法は拡散プロセスです。
Q3. Whisperモデルで音声認識を行う際、前処理として最も重要な3つの処理の組み合わせはどれですか?
- A) カラー変換、リサイズ、JPEG圧縮
- B) モノラル変換、16kHzリサンプリング、音量正規化
- C) トークナイズ、パディング、マスキング
- D) フレーム分割、エッジ検出、二値化
答えを見る
正解: B
Whisperモデルの入力に適した前処理は、モノラル変換(チャンネル統一)、16kHzへのリサンプリング(モデルの標準入力サンプルレート)、音量正規化(安定した認識精度の確保)です。Aは画像、Cはテキスト、Dは画像処理の手法です。
Q4. 動画分析パイプラインにおいて、キーフレーム抽出の手法として適切でないものはどれですか?
- A) 等間隔サンプリング(例: 1秒ごと)
- B) シーン変化検出に基づく抽出
- C) 動画全フレームをVLMに入力する
- D) 動きの大きいフレームを優先的に抽出する
答えを見る
正解: C
動画の全フレーム(30fpsの1分動画で1,800フレーム)をVLMに入力することは、コスト的にもレイテンシ的にも現実的ではありません。等間隔サンプリング、シーン変化検出、動き検出などの手法でキーフレームを選定し、代表的なフレームのみを分析するのが実践的なアプローチです。
Q5. Document AIにおける請求書処理で、OCRとDocument AIの最も大きな違いは何ですか?
- A) Document AIの方がOCRより文字認識速度が速い
- B) Document AIは文書の構造を理解し、フィールドの意味まで抽出できる
- C) OCRはクラウドでしか動作しないが、Document AIはローカルでも動く
- D) Document AIは手書き文字のみに対応している
答えを見る
正解: B
OCRは「文字を読む」技術ですが、Document AIは文書のレイアウト、テーブル構造、キー-バリューペアを理解し、「この数字は合計金額」「この文字列は取引先名」といった意味レベルでのフィールド抽出を行います。認識速度や動作環境ではなく、理解の深さが本質的な違いです。
Q6. マルチモーダル統合パイプラインで、ファンアウト/ファンインパターンが適している場面はどれですか?
- A) 処理結果を直列に次の処理に渡す場合
- B) 1つの入力を複数のモダリティで並行処理し、結果を統合する場合
- C) 条件に応じて処理を分岐させる場合
- D) 処理を一定回数繰り返す場合
答えを見る
正解: B
ファンアウト/ファンインパターンは、1つの入力(例: 動画ファイル)を複数の独立した処理(映像分析、音声分析など)に分散(ファンアウト)し、全ての処理が完了した後に結果を統合(ファンイン)するパターンです。各処理間に依存関係がない場合、並行実行によりレイテンシを大幅に削減できます。
Q7. ワークフローオーケストレーションにおいて、DAG(有向非巡回グラフ)で管理する最大のメリットは何ですか?
- A) グラフデータベースに保存できること
- B) タスク間の依存関係を明示し、並行実行可能なタスクを自動的に判別できること
- C) 任意のタスクをループ実行できること
- D) グラフィカルなUI表示が可能になること
答えを見る
正解: B
DAGでは各タスクの依存関係が明示的に定義されるため、オーケストレーターは「どのタスクが並行実行可能か」を自動的に判別できます。依存先が全て完了したタスクから順次実行されるため、手動で実行順序を管理する必要がなく、最適な並行度でワークフローを実行できます。DAGは「非巡回」なのでループは含みません。
Q8. マルチモーダルパイプラインの品質管理で、信頼度スコアが80%未満の結果を全件人的レビューする場合、その割合が20%を超えたときに疑うべきことは何ですか?
- A) レビュー担当者の能力不足
- B) 入力データの品質変化またはモデルの劣化
- C) レビュー基準が厳しすぎる
- D) システムの処理速度が低下している
答えを見る
正解: B
低信頼度結果の割合が想定(5-15%)を超えて増加した場合、入力データの性質が変化した(例: 新しいフォーマットの請求書が増えた)か、AIモデルの性能が劣化した可能性があります。これはデータドリフトまたはモデルドリフトと呼ばれ、プロンプトの調整やモデルの再評価が必要です。
Q9. NetShop社でマルチモーダルAI導入のROI試算を行う際、最も見落としやすいコスト項目はどれですか?
- A) AIモデルのAPI利用料
- B) 初期開発費用
- C) 継続的な運用コスト(品質監視、プロンプト調整、モデル更新)
- D) サーバーのインフラ費用
答えを見る
正解: C
API料金やインフラ費用、初期開発費用は見積もりに含めやすいですが、本番運用開始後の継続的なコスト(品質監視のための人的レビュー、プロンプトの定期調整、モデル更新の評価、障害対応など)は見落とされがちです。AIシステムは「作って終わり」ではなく、継続的な改善運用が不可欠です。
Q10. マルチモーダルAIの活用計画で、Phase 1(初期導入)で選定すべきユースケースの条件として最も適切な組み合わせはどれですか?
- A) 最も高い売上インパクトがあるもの
- B) 定型的な入力データ、高い技術的実現性、低リスク、効果が測定しやすいもの
- C) 最も多くのモダリティを使用するもの
- D) 最新のAI技術を活用できるもの
答えを見る
正解: B
Phase 1では「小さな成功体験」を積むことが重要です。定型的な入力データ(品質が安定)、高い技術的実現性(既存APIで対応可能)、低リスク(ミスの影響が限定的)、効果測定の容易さ(Before/Afterが明確)を兼ね備えたユースケースを選定することで、組織内のAI活用への信頼を構築できます。
結果
8問以上正解の場合
合格です。Month 4「マルチモーダルAIを活用しよう」を修了しました。 画像、音声、動画、文書の各モダリティを統合的に活用し、業務課題を解決する力が身につきました。 次はMonth 5「AI安全性とガバナンスを設計しよう」に進みましょう。
7問以下の場合
もう少し復習しましょう。
| 問題 | 復習セクション |
|---|---|
| Q1 | Step 1: Vision Language Models |
| Q2 | Step 2: 画像生成 |
| Q3 | Step 3: 音声認識(STT) |
| Q4 | Step 3: 動画分析 |
| Q5 | Step 4: Document AI |
| Q6 | Step 5: パイプライン統合 |
| Q7 | Step 5: オーケストレーション設計 |
| Q8 | Step 5: 品質管理 |
| Q9 | Step 6: 総合演習 |
| Q10 | Step 6: 総合演習 |
推定所要時間: 30分