チェックポイント - L0 カリキュラム

クイズの説明

Step 3で学んだ音声・動画処理の自動化について理解度をチェックします。

全5問
合格ライン: 80%（4問正解）
不合格の場合は復習してから再挑戦してください

問題

Q1. Whisper APIの制限（1ファイル25MB）を超える長時間の会議録音を処理する最も適切な方法はどれですか？

A) 音声ファイルを高圧縮してファイルサイズを25MB以下にする
B) 音声ファイルをセグメントに分割し、各セグメントを個別に処理してタイムスタンプをオフセット調整する
C) Whisper APIの代わりに精度の低い軽量モデルを使う
D) 長時間の会議は文字起こし対象から除外する

答えを見る

正解: B

長時間音声はセグメントに分割（通常10分程度）し、各セグメントをWhisper APIで個別に処理します。結合時にはタイムスタンプのオフセットを調整して、全体として連続した文字起こし結果を得ます。高圧縮（A）は音質低下で精度が落ち、軽量モデル（C）や対象除外（D）は根本的な解決になりません。

Q2. 会議録音の話者分離（Speaker Diarization）の精度を向上させるために最も効果的な方法はどれですか？

A) 文字起こし結果のテキストから、LLMに話者を推測させる
B) ステレオ録音（各チャンネルに別の話者）を使用する
C) 会議の参加者全員の顔写真を事前に登録する
D) 録音の音量を最大にする

答えを見る

正解: B

ステレオ録音で各チャンネルに異なる話者の音声を分離して録音することで、話者分離の精度が大幅に向上します（+20%程度）。テキストからの推測（A）は補助的な手段にはなりますが、音声レベルでの分離には劣ります。顔写真（C）は音声の話者分離には使えず、音量最大化（D）はノイズ増加の原因になります。

Q3. SSML（Speech Synthesis Markup Language）の機能として正しくないものはどれですか？

A) <break>タグで間（ポーズ）を挿入する
B) <prosody>タグで話速やピッチを変更する
C) <translate>タグでリアルタイム翻訳を行う
D) <emphasis>タグで強調表現を指定する

答えを見る

正解: C

SSMLには<translate>タグは存在しません。SSMLは音声合成の制御に特化しており、<break>（間）、<prosody>（話速・ピッチ・音量）、<emphasis>（強調）、<say-as>（読み方指定）などのタグが使えますが、翻訳機能は含まれていません。翻訳は別途翻訳APIで行う必要があります。

Q4. 動画分析において、60分の研修動画を効率的に要約する際のフレーム抽出戦略として最も適切なものはどれですか？

A) 全フレーム（30fps × 60分 = 108,000枚）をVLMで分析する
B) 最初と最後のフレームだけを分析し、音声のみで要約する
C) シーン変化検出で重要な場面を選定し、等間隔抽出と組み合わせて30〜60枚のフレームを分析する
D) ランダムに10枚のフレームを選んで分析する

答えを見る

正解: C

シーン変化検出（ヒストグラム差分等）で重要な場面を選定し、等間隔抽出と組み合わせて30〜60枚程度のキーフレームを分析するのが最も効率的です。全フレーム分析（A）はコスト的に非現実的で、最初と最後（B）やランダム10枚（D）では重要な情報を見逃す可能性が高くなります。

Q5. 経営会議の議事録を自動生成する際、機密性を確保するために最も適切なアプローチはどれですか？

A) 外部のクラウドAPIを使い、利用規約で機密保持を確認する
B) 議事録の自動生成を諦め、手動で作成する
C) STTとLLMをオンプレミス環境にデプロイし、データが社外に出ないようにする
D) 会議内容を匿名化してからクラウドAPIに送信する

答えを見る

正解: C

機密性の高い経営会議では、Whisper（ローカル版）やオープンソースLLM（Llama等）をオンプレミス環境にデプロイし、音声データや議事録データが社外に一切出ない構成が最も適切です。クラウドAPI（A）は利用規約だけでは不十分な場合があり、手動作成（B）は自動化のメリットを失い、匿名化（D）は経営会議の内容を有意義に匿名化するのが困難です。

結果

4問以上正解の場合

合格です。Step 3「音声・動画処理を自動化しよう」を完了しました。次はStep 4「Document AIで文書処理を革新しよう」に進みましょう。

3問以下の場合

もう少し復習しましょう。

問題	復習セクション
Q1	step3_1 音声認識（STT）- 長時間音声の分割処理
Q2	step3_1 音声認識（STT）- 話者分離
Q3	step3_2 音声合成（TTS）- SSML
Q4	step3_3 動画分析 - フレーム抽出とシーン検出
Q5	step3_4 会議の自動化 - プライバシーとセキュリティ

推定所要時間: 30分