QUIZ 15分

クイズの説明

Step 1で学んだマルチモーダルAIの基礎について理解度をチェックします。

  • 全5問
  • 合格ライン: 80%(4問正解)
  • 不合格の場合は復習してから再挑戦してください

問題

Q1. Vision Language Model(VLM)の3つの主要コンポーネントとして正しい組み合わせはどれですか?

  • A) CNN、RNN、Transformer
  • B) Visual Encoder、Projection Layer、LLM
  • C) Tokenizer、Embedding、Decoder
  • D) CLIP、DALL-E、Whisper
答えを見る

正解: B

VLMはVisual Encoder(画像をベクトル表現に変換)、Projection Layer(画像ベクトルをLLMの入力空間にマッピング)、LLM(テキストと統合して推論・生成)の3つのコンポーネントで構成されます。


Q2. 音声データをSTT(音声認識)モデルに入力する前の前処理として、最も適切な組み合わせはどれですか?

  • A) ステレオ変換、サンプルレート48kHz化、MP3圧縮
  • B) モノラル変換、サンプルレート16kHz化、音量正規化
  • C) カラーモード変換、リサイズ、JPEG圧縮
  • D) トークナイズ、パディング、正規化
答えを見る

正解: B

STTモデルの標準的な前処理は、モノラル変換(不要なチャンネル情報の削除)、サンプルレート16kHz化(STTモデルの標準入力)、音量正規化(安定した認識精度の確保)です。Cは画像、Dはテキストの前処理です。


Q3. マルチモーダルAIのユースケース評価で使用する4軸として正しいものはどれですか?

  • A) 速度、精度、コスト、セキュリティ
  • B) 効果(Impact)、実現性(Feasibility)、データ可用性(Data)、リスク(Risk)
  • C) 入力品質、処理速度、出力品質、ユーザー満足度
  • D) 技術難易度、開発期間、人員、予算
答えを見る

正解: B

業務課題に対するマルチモーダルAIの適用を評価するには、効果(自動化による時間削減量)、実現性(現在のAI技術での達成可能性)、データ可用性(学習・テスト用データの有無)、リスク(誤りが生じた際の影響度)の4軸で評価します。


Q4. 動画処理パイプラインにおいて、動画から情報を抽出する際の基本的なアプローチとして正しいものはどれですか?

  • A) 動画全体をそのままLLMに入力して分析する
  • B) フレーム抽出による画像分析と、音声分離による音声分析を並行して行い、結果を統合する
  • C) 動画をテキストに変換してからLLMで分析する
  • D) 動画の最初と最後のフレームだけを分析する
答えを見る

正解: B

動画処理では、フレーム抽出で等間隔またはシーン変化に基づいてキーフレームを選定し画像分析を行うと同時に、音声トラックを分離してSTTで文字起こしを行い、両方の結果を統合して最終出力を得ます。動画全体をそのままLLMに入力することは現在のモデルでは一般的ではありません。


Q5. NetShop社で「請求書の自動処理」を導入する際、Human-in-the-Loopを設けるべき条件として最も適切なものはどれですか?

  • A) 全ての請求書に対して人間の確認を必須とする
  • B) AI処理の信頼度が低い場合、高額取引の場合、初見の取引先の場合
  • C) 人間の確認は不要で、全てAIに任せるべき
  • D) 月末の処理集中時のみ人間が確認する
答えを見る

正解: B

AI処理の信頼度スコアが閾値を下回る場合、金額が一定額を超える高リスク取引の場合、過去に処理実績のない初見の取引先の場合にHuman-in-the-Loopを設けるのが適切です。全件確認では自動化の効果が薄れ、完全自動化では誤りのリスクが高すぎます。


結果

4問以上正解の場合

合格です。Step 1「マルチモーダルAIの基礎を理解しよう」を完了しました。 次はStep 2「画像認識・生成を業務に活用しよう」に進みましょう。

3問以下の場合

もう少し復習しましょう。

問題復習セクション
Q1step1_2 Vision Language Models
Q2step1_3 モダリティ別処理パイプライン
Q3step1_4 業務ユースケースマッピング
Q4step1_3 モダリティ別処理パイプライン
Q5step1_4 業務ユースケースマッピング

推定所要時間: 15分