クイズの説明
Step 1で学んだマルチモーダルAIの基礎について理解度をチェックします。
- 全5問
- 合格ライン: 80%(4問正解)
- 不合格の場合は復習してから再挑戦してください
問題
Q1. Vision Language Model(VLM)の3つの主要コンポーネントとして正しい組み合わせはどれですか?
- A) CNN、RNN、Transformer
- B) Visual Encoder、Projection Layer、LLM
- C) Tokenizer、Embedding、Decoder
- D) CLIP、DALL-E、Whisper
答えを見る
正解: B
VLMはVisual Encoder(画像をベクトル表現に変換)、Projection Layer(画像ベクトルをLLMの入力空間にマッピング)、LLM(テキストと統合して推論・生成)の3つのコンポーネントで構成されます。
Q2. 音声データをSTT(音声認識)モデルに入力する前の前処理として、最も適切な組み合わせはどれですか?
- A) ステレオ変換、サンプルレート48kHz化、MP3圧縮
- B) モノラル変換、サンプルレート16kHz化、音量正規化
- C) カラーモード変換、リサイズ、JPEG圧縮
- D) トークナイズ、パディング、正規化
答えを見る
正解: B
STTモデルの標準的な前処理は、モノラル変換(不要なチャンネル情報の削除)、サンプルレート16kHz化(STTモデルの標準入力)、音量正規化(安定した認識精度の確保)です。Cは画像、Dはテキストの前処理です。
Q3. マルチモーダルAIのユースケース評価で使用する4軸として正しいものはどれですか?
- A) 速度、精度、コスト、セキュリティ
- B) 効果(Impact)、実現性(Feasibility)、データ可用性(Data)、リスク(Risk)
- C) 入力品質、処理速度、出力品質、ユーザー満足度
- D) 技術難易度、開発期間、人員、予算
答えを見る
正解: B
業務課題に対するマルチモーダルAIの適用を評価するには、効果(自動化による時間削減量)、実現性(現在のAI技術での達成可能性)、データ可用性(学習・テスト用データの有無)、リスク(誤りが生じた際の影響度)の4軸で評価します。
Q4. 動画処理パイプラインにおいて、動画から情報を抽出する際の基本的なアプローチとして正しいものはどれですか?
- A) 動画全体をそのままLLMに入力して分析する
- B) フレーム抽出による画像分析と、音声分離による音声分析を並行して行い、結果を統合する
- C) 動画をテキストに変換してからLLMで分析する
- D) 動画の最初と最後のフレームだけを分析する
答えを見る
正解: B
動画処理では、フレーム抽出で等間隔またはシーン変化に基づいてキーフレームを選定し画像分析を行うと同時に、音声トラックを分離してSTTで文字起こしを行い、両方の結果を統合して最終出力を得ます。動画全体をそのままLLMに入力することは現在のモデルでは一般的ではありません。
Q5. NetShop社で「請求書の自動処理」を導入する際、Human-in-the-Loopを設けるべき条件として最も適切なものはどれですか?
- A) 全ての請求書に対して人間の確認を必須とする
- B) AI処理の信頼度が低い場合、高額取引の場合、初見の取引先の場合
- C) 人間の確認は不要で、全てAIに任せるべき
- D) 月末の処理集中時のみ人間が確認する
答えを見る
正解: B
AI処理の信頼度スコアが閾値を下回る場合、金額が一定額を超える高リスク取引の場合、過去に処理実績のない初見の取引先の場合にHuman-in-the-Loopを設けるのが適切です。全件確認では自動化の効果が薄れ、完全自動化では誤りのリスクが高すぎます。
結果
4問以上正解の場合
合格です。Step 1「マルチモーダルAIの基礎を理解しよう」を完了しました。 次はStep 2「画像認識・生成を業務に活用しよう」に進みましょう。
3問以下の場合
もう少し復習しましょう。
| 問題 | 復習セクション |
|---|---|
| Q1 | step1_2 Vision Language Models |
| Q2 | step1_3 モダリティ別処理パイプライン |
| Q3 | step1_4 業務ユースケースマッピング |
| Q4 | step1_3 モダリティ別処理パイプライン |
| Q5 | step1_4 業務ユースケースマッピング |
推定所要時間: 15分