EXERCISE 90分

ストーリー

田中VPoE
音声認識、音声合成、動画分析、会議自動化を学んだ。ここで3つの業務シナリオに対して、音声・動画AIを適用する設計を行ってもらう
あなた
実践的な設計演習ですね
田中VPoE
そうだ。単に技術を使うだけでなく、業務フローへの組み込み、精度管理、コスト試算まで含めて考えてくれ
あなた
会議の自動化は全社的なインパクトが大きそうなので、しっかり設計します

ミッション概要

項目内容
目標音声・動画AIを業務に適用するシステム設計書を作成する
所要時間90分
ミッション数3つ
使用知識STT / TTS / 動画分析 / 会議自動化
評価観点技術選定、パイプライン設計、運用設計、コスト試算

ミッション1: 全社会議自動化システムの設計(35分)

シナリオ

【総務部 中村部長からの依頼】

NetShop社では以下の会議が定期的に開催されています:

| 種別 | 頻度 | 平均時間 | 参加者数 | 月間回数 |
|------|------|---------|---------|---------|
| 朝会 | 毎日 | 15分 | 5-8名 | 22回×5チーム=110回 |
| プロジェクト会議 | 週1 | 60分 | 3-10名 | 20回 |
| 経営会議 | 週1 | 90分 | 10名 | 4回 |
| 1on1 | 隔週 | 30分 | 2名 | 40回 |
| 全社ミーティング | 月1 | 60分 | 全社50名 | 1回 |

現在の課題:
- 議事録の作成に1回あたり30分かかる
- 議事録の品質にバラつきがある
- アクションアイテムの追跡が属人的
- 過去の会議内容の検索が困難
- 経営会議の議事録は機密性が高い

希望:
- 全ての会議の議事録を自動生成
- 会議種別に応じた最適な出力形式
- アクションアイテムの自動追跡
- 過去の議事録の検索機能
- 機密会議は社外APIを使わない

タスク

以下を設計してください。

1. システムアーキテクチャ
   - 通常会議用のパイプライン
   - 機密会議用のパイプライン(オンプレ要件)
   - 使用する技術スタック

2. 会議種別ごとの出力設計
   - 各種別の出力形式とテンプレート
   - プロンプト設計の方針

3. 検索機能の設計
   - インデックス設計
   - 検索クエリの想定

4. コスト試算
   - 月間のAPI費用
   - インフラ費用
   - 削減できる人件費

5. 段階的導入計画
   - Phase 1〜3のスコープ
解答例を見る
1. システムアーキテクチャ

【通常会議用パイプライン】
Zoom/Teams録音 → S3アップロード → Lambda起動
→ Whisper API(STT)→ pyannote(話者分離)
→ Claude API(議事録生成)→ Slack通知 + Notion保存

【機密会議用パイプライン】
録音 → 社内サーバーにアップロード
→ Whisper(ローカルGPU実行)→ pyannote(ローカル)
→ Ollama + Llama 3(ローカルLLM)→ 社内Wikiに保存

技術スタック:
- STT: Whisper API(通常)/ Whisper Large V3ローカル(機密)
- 話者分離: pyannote.audio 3.1
- 議事録生成: Claude Sonnet(通常)/ Llama 3 70B(機密)
- ストレージ: S3 + PostgreSQL
- 検索: OpenSearch(ベクトル検索対応)

2. 会議種別ごとの出力設計

| 種別 | 出力形式 | 重点項目 |
|------|---------|---------|
| 朝会 | 箇条書き(200字以内) | 進捗・ブロッカー |
| プロジェクト会議 | 構造化議事録 | 議論・決定・アクション |
| 経営会議 | 詳細議事録 + 数値データ | 判断根拠・KPI |
| 1on1 | プライベートメモ | フィードバック・目標 |
| 全社ミーティング | 社内報形式 | 方針・Q&A |

3. 検索機能の設計

インデックス:
- 全文テキスト検索(OpenSearch)
- ベクトル検索(Embedding + コサイン類似度)
- メタデータフィルタ(日付、参加者、種別、プロジェクト)

検索クエリ例:
「先月の経営会議で決まった予算の件」
→ 種別:経営会議 + 期間:先月 + キーワード:予算

4. コスト試算

月間処理量:
朝会110回×15分 + PJ20回×60分 + 経営4回×90分 + 1on1 40回×30分 + 全社1回×60分
= 1650+1200+360+1200+60 = 4470分 = 74.5時間

API費用:
- Whisper API: 74.5時間 × $0.006/分 = $26.82
- Claude API: 175回 × $0.05 = $8.75
- OpenSearch: $50/月
- GPU(機密用): $100/月
合計: 約$186/月 ≒ 28,000円/月

削減効果:
議事録作成: 175回 × 30分 = 87.5時間 × 3,000円 = 262,500円/月
ROI: 262,500 - 28,000 = 234,500円/月

5. 段階的導入計画

Phase 1(1ヶ月): 朝会のみ自動化(最もパターン化しやすい)
Phase 2(2〜3ヶ月): プロジェクト会議 + 1on1に拡大
Phase 3(4〜6ヶ月): 経営会議(オンプレ構築)+ 検索機能 + 全社展開

ミッション2: コールセンター音声分析システム(30分)

シナリオ

【CS部 山田リーダーからの追加依頼】

Step 1で検討したコールセンターの音声処理に加えて、
通話品質の分析とオペレーター教育への活用を検討したい。

追加要件:
1. 通話品質スコアの自動算出
   - オペレーターの応対品質(挨拶、言葉遣い、共感表現)
   - 問題解決の効率性(通話時間、保留回数)
   - 顧客満足度の推定

2. ベストプラクティスの自動抽出
   - 高評価通話のパターン分析
   - 新人教育用の模範通話の自動選定

3. リアルタイムアシスタント
   - 通話中に参考情報をオペレーター画面に表示
   - 感情悪化時のアラート

タスク

以下を設計してください。

1. 通話品質スコアリングの設計
   - 評価項目と重み付け
   - スコアリングアルゴリズム

2. リアルタイムアシスタントの設計
   - アーキテクチャ(レイテンシ要件を考慮)
   - 表示する情報の種類

3. 教育コンテンツ自動生成
   - ベストプラクティス抽出のロジック
   - 教育コンテンツの形式
解答例を見る
1. 通話品質スコアリング

評価項目と重み:
| 項目 | 重み | 評価方法 |
|------|------|---------|
| 挨拶・名乗り | 10% | キーワード検出 |
| 言葉遣い | 15% | NGワード検出 + LLM評価 |
| 共感表現 | 15% | 共感フレーズの頻度 |
| 傾聴(顧客の話を遮らない) | 15% | 話者オーバーラップ分析 |
| 問題解決効率 | 20% | 通話時間 + 解決率 |
| 顧客感情変化 | 25% | 通話前半→後半の感情スコア差 |

スコアリング: 各項目0-100点 × 重み → 総合スコア(0-100)

2. リアルタイムアシスタント

アーキテクチャ:
通話音声 → [Deepgram STT (200ms以下)] → テキストストリーム
→ [軽量NLPモデル] → 意図分類 + キーワード抽出
→ [RAG検索] → 関連FAQ/手順を表示
→ [感情分析] → スコア低下時にアラート

レイテンシ要件: 2秒以内に画面表示

表示情報:
- 顧客の問い合わせカテゴリ(自動判定)
- 関連FAQ(上位3件)
- 類似ケースの対応履歴
- 感情スコアのリアルタイムグラフ
- 「お客様が怒っています」等のアラート

3. 教育コンテンツ自動生成

ベストプラクティス抽出:
- 顧客満足度スコア上位10%の通話を自動選定
- LLMで「なぜこの通話が高評価か」の分析コメント生成
- 同じカテゴリの低評価通話との比較ポイントを抽出

教育コンテンツの形式:
- 模範通話のハイライト音声(TTSで匿名化版も作成可)
- 書き起こし + AIコメント(良かったポイントのアノテーション)
- Before/After比較スライド
- 週次ベストプラクティスレポート(Slack配信)

ミッション3: 研修動画プラットフォームの設計(25分)

シナリオ

【人事部 佐々木マネージャーからの依頼】

社内に200本以上の研修動画があるが、活用度が低い。
動画をAIで処理し、学習効率を高めるプラットフォームを構築したい。

要件:
1. 全動画の字幕自動生成(多言語対応含む)
2. 動画内容の要約とチャプター分け
3. 動画内容に基づくクイズの自動生成
4. 動画内の質問応答(「動画の15分あたりで説明された手順は?」)
5. 関連動画のレコメンド

タスク

以下を設計してください。

1. 動画処理パイプライン
   - 200本の既存動画のバッチ処理方法
   - 新規動画の自動処理フロー

2. 検索・質問応答の設計
   - 動画コンテンツのインデックス方法
   - 質問応答の実装アプローチ

3. クイズ自動生成の設計
   - 生成するクイズの形式
   - 品質保証の方法

4. 多言語対応の設計
解答例を見る
1. 動画処理パイプライン

【既存200本のバッチ処理】
S3バケット内の全動画 → Step Functions オーケストレーション:
  並列処理(1動画あたり):
  ├── 音声抽出 → Whisper API → 日本語字幕SRT
  ├── フレーム抽出(10秒間隔)→ VLMでシーン説明
  └── メタデータ抽出(長さ、解像度等)

  統合処理:
  ├── チャプター自動生成(シーン変化 + トピック変化で分割)
  ├── 動画要約生成(Claude)
  ├── Embeddingベクトル生成(チャプター単位)
  └── OpenSearchにインデックス登録

処理時間見積: 200本 × 平均30分動画 = 100時間の動画
並列20本処理で約2日

【新規動画】
アップロード → EventBridge → 同じパイプラインをリアルタイム実行

2. 検索・質問応答

インデックス:
- チャプター単位でEmbedding生成
- 各チャプター: タイムスタンプ + テキスト + フレーム画像 + メタデータ

質問応答:
ユーザーの質問 → Embedding → ベクトル検索で関連チャプター上位5件
→ 該当チャプターのテキスト + フレーム画像をコンテキストとしてLLMに送信
→ 回答 + 該当動画の該当時間へのリンクを返す

3. クイズ自動生成

形式: 4択問題 × 5問/動画
生成: チャプター要約からClaude APIで生成
プロンプト: 「以下の内容に基づいて、理解度を確認する4択問題を5問作成してください」

品質保証:
- 生成されたクイズをLLMで自己レビュー(答えの妥当性チェック)
- 初回は人事担当者がレビュー、フィードバック後にプロンプト改善
- 受講者からのフィードバック(「この問題は不適切」ボタン)

4. 多言語対応

日本語字幕 → LLM翻訳 → 英語/中国語/韓国語字幕
翻訳品質: 社内の各言語話者にサンプルレビュー依頼
TTS: 翻訳テキスト → 各言語のTTSで音声トラック生成(吹替版)

振り返り

評価基準

評価項目A(優秀)B(合格)C(要改善)
アーキテクチャ機密/通常の分離、スケーラビリティ考慮基本的な処理フロー非機能要件の考慮なし
運用設計コスト試算 + 段階導入 + KPI基本的な運用方針運用面の考慮不足
技術選定要件に応じた最適選定 + 代替案適切な技術選定技術の使い分けが不明確
ビジネスインパクト定量的なROIと定性的効果の両方概算でもROIを提示効果の説明が不十分

推定所要時間: 90分