理解度チェック - L0 カリキュラム

クイズの説明

Step 1で学んだマルチモーダルAIの基礎について理解度をチェックします。

答えを見る

正解: B

VLMはVisual Encoder（画像をベクトル表現に変換）、Projection Layer（画像ベクトルをLLMの入力空間にマッピング）、LLM（テキストと統合して推論・生成）の3つのコンポーネントで構成されます。

答えを見る

正解: B

STTモデルの標準的な前処理は、モノラル変換（不要なチャンネル情報の削除）、サンプルレート16kHz化（STTモデルの標準入力）、音量正規化（安定した認識精度の確保）です。Cは画像、Dはテキストの前処理です。

答えを見る

正解: B

業務課題に対するマルチモーダルAIの適用を評価するには、効果（自動化による時間削減量）、実現性（現在のAI技術での達成可能性）、データ可用性（学習・テスト用データの有無）、リスク（誤りが生じた際の影響度）の4軸で評価します。

答えを見る

正解: B

動画処理では、フレーム抽出で等間隔またはシーン変化に基づいてキーフレームを選定し画像分析を行うと同時に、音声トラックを分離してSTTで文字起こしを行い、両方の結果を統合して最終出力を得ます。動画全体をそのままLLMに入力することは現在のモデルでは一般的ではありません。

答えを見る

正解: B

AI処理の信頼度スコアが閾値を下回る場合、金額が一定額を超える高リスク取引の場合、過去に処理実績のない初見の取引先の場合にHuman-in-the-Loopを設けるのが適切です。全件確認では自動化の効果が薄れ、完全自動化では誤りのリスクが高すぎます。

合格です。Step 1「マルチモーダルAIの基礎を理解しよう」を完了しました。次はStep 2「画像認識・生成を業務に活用しよう」に進みましょう。

もう少し復習しましょう。

推定所要時間: 15分