EXERCISE 60分

ストーリー

田中VPoE
統合パイプライン、オーケストレーション、品質管理を学んだ。ここで実際にNetShop社のマルチモーダル統合システムを設計してもらう
あなた
いよいよ全てのモダリティを組み合わせた設計ですね
田中VPoE
3つのミッションを用意した。段階的に複雑さが増していく。Step 1〜4の全知識を活用して取り組んでくれ
あなた
学んだことを総動員して挑みます

ミッション概要

項目内容
目標マルチモーダル統合パイプラインを設計する
所要時間60分
ミッション数3つ
使用知識画像AI / 音声AI / Document AI / 統合パイプライン / オーケストレーション / 品質管理
評価観点アーキテクチャの妥当性、モダリティ統合の設計、品質管理の組み込み

前提条件

NetShop社の現在のシステム状況:

【利用可能なAPI・モデル】
- OpenAI GPT-4o(テキスト+画像入力対応)
- Whisper API(音声認識)
- Claude Vision(文書分析)
- 社内OCRエンジン(日本語特化、オンプレ)

【インフラ】
- AWS上で運用(ECS、Lambda、S3、SQS)
- 月間処理量: 約10,000件/月
- SLA: 処理完了まで5分以内(90パーセンタイル)

Mission 1: 商品レビュー統合分析システム(20分)

シナリオ

【EC運営部 中村マネージャーからの依頼】

商品レビューが多様な形式で投稿されるようになった。
- テキストレビュー: 月間5,000件
- 画像付きレビュー: 月間2,000件(商品写真、使用シーン)
- 動画レビュー: 月間500件(開封動画、使用レビュー)

現在の課題:
1. テキストレビューしか分析できていない
2. 画像・動画に含まれる情報(商品の状態、使用感)を活用できていない
3. レビュー分析レポートの作成に週10時間かかっている

要望:
- 全形式のレビューを統合分析し、商品別のインサイトを自動生成
- ネガティブレビューの早期検知とアラート
- 週次レポートの自動生成

タスク

以下のアーキテクチャ設計書を完成させてください。

【設計書テンプレート】

1. 処理パイプライン(DAG形式で記述):
   入力: ___
   ステップ1: ___
   ステップ2: ___
   ステップ3: ___
   統合: ___
   出力: ___

2. モダリティ別処理の詳細:
   テキスト: 使用モデル: ___ / 処理内容: ___
   画像: 使用モデル: ___ / 処理内容: ___
   動画: 使用モデル: ___ / 処理内容: ___

3. オーケストレーションパターン:
   パターン: ___
   理由: ___

4. 品質管理:
   品質指標: ___
   監視方法: ___
   アラート条件: ___
解答例を見る
【設計書】

1. 処理パイプライン:
   入力: レビューデータ(テキスト/画像/動画)→ S3に格納
   ステップ1: モダリティルーターで振り分け
   ステップ2: 各モダリティを並行処理
     - テキスト → 感情分析 + エンティティ抽出
     - 画像 → 商品状態分析 + テキスト読み取り(OCR)
     - 動画 → フレーム抽出 + 音声分離 → 画像分析 + STT
   ステップ3: 全結果をLLMで統合分析
   統合: 商品別にインサイトを集約、スコアリング
   出力: 商品別ダッシュボード、アラート、週次レポート

2. モダリティ別処理の詳細:
   テキスト: GPT-4o / 感情分析(5段階)、キーワード抽出、カテゴリ分類
   画像: GPT-4o Vision / 商品状態(良/不良)判定、画像内テキスト読取
   動画: Whisper + GPT-4o / 音声書起→要約、キーフレーム5枚を画像分析

3. オーケストレーションパターン:
   パターン: ファンアウト/ファンインの並行処理
   理由: テキスト/画像/動画の処理は独立しており、並行実行でレイテンシを削減。
         動画内部は音声・映像をさらにファンアウト。

4. 品質管理:
   品質指標: 感情分析の正解率(人手ラベルと比較)、信頼度スコアの分布
   監視方法: 日次で100件をサンプリングレビュー、週次で精度評価
   アラート条件: ネガティブレビュー急増(前日比200%)、精度低下(5%以上)

Mission 2: カスタマーサポート統合対応システム(20分)

シナリオ

【CS部 山田リーダーからの追加依頼】

問い合わせチャネルが多様化し、統合対応が必要になった。
- メール(テキスト + 画像添付): 月間3,000件
- 電話(音声): 月間4,000件
- チャット(テキスト + 画像/PDF添付): 月間2,000件
- SNS(テキスト + 画像): 月間1,000件

課題:
1. チャネルごとに対応品質にバラつきがある
2. 同一顧客が複数チャネルで問い合わせた場合の対応が分断される
3. 画像やPDFの添付ファイルが手動で確認されている

要望:
- 全チャネルを統一的に処理し、一貫した対応品質を実現
- 添付ファイルの自動分析と情報抽出
- 問い合わせの優先度自動判定

タスク

統合対応システムのアーキテクチャを設計してください。

【設計書テンプレート】

1. 入力統一層の設計:
   各チャネル→統一フォーマット変換の方法: ___

2. 処理フロー(条件分岐を含む):
   フロー図: ___

3. 優先度判定ロジック:
   判定基準: ___
   使用するシグナル: ___

4. SLA遵守の設計:
   リアルタイム処理が必要な部分: ___
   バッチ処理でよい部分: ___
   レイテンシ目標: ___

5. フォールバック戦略:
   障害パターン: ___
   対応: ___
解答例を見る
【設計書】

1. 入力統一層の設計:
   各チャネル → Webhook/API → SQSキュー → 統一スキーマに変換
   統一スキーマ: {channel, customer_id, text, attachments[], timestamp, metadata}
   メール: IMAPポーリング、電話: CTI連携(通話録音→S3)、チャット: WebSocket、SNS: API

2. 処理フロー:
   [受信] → [統一スキーマ変換] → [顧客ID照合]
     → [テキスト分析] ── 並行 ── [添付ファイル分析]
                                    ├→ 画像 → Vision分析
                                    ├→ 音声 → STT → NLP
                                    └→ PDF → Document AI
     → [統合コンテキスト生成]
     → [優先度判定] → [HIGH: 即時エスカレーション]
                    → [MEDIUM: 担当者キュー]
                    → [LOW: 自動回答候補生成]

3. 優先度判定ロジック:
   判定基準: HIGH/MEDIUM/LOWの3段階
   使用するシグナル:
   - 感情スコア(怒り検知 → HIGH)
   - キーワード(「返金」「解約」「法的」 → HIGH)
   - 顧客ランク(VIP顧客 → 1段階引き上げ)
   - 問い合わせ回数(同一件で3回目 → HIGH)

4. SLA遵守の設計:
   リアルタイム: チャット応答(3秒以内に受付確認)、優先度判定(10秒以内)
   バッチ: 音声の詳細分析、週次レポート
   レイテンシ目標: 統合分析完了まで60秒以内(P95)

5. フォールバック戦略:
   - Vision APIダウン → 画像分析スキップ、テキストのみで対応
   - STT失敗 → 通話録音を担当者に転送
   - 全API障害 → 従来の手動対応フローにフォールバック、キューに蓄積

Mission 3: 品質管理フレームワークの設計(20分)

シナリオ

【CTO 佐藤からの指示】

Mission 1, 2のシステムを本番運用するにあたり、
品質管理フレームワークを設計してほしい。

要件:
1. 全パイプラインの品質を統一的に監視する仕組み
2. 品質低下を自動検知し、適切にエスカレーションする仕組み
3. 継続的に品質を改善するためのフィードバックループ

タスク

【品質管理フレームワーク設計書】

1. メトリクス定義:
   モダリティ共通メトリクス: ___
   モダリティ固有メトリクス: ___

2. 監視・アラート設計:
   リアルタイム監視項目: ___
   日次チェック項目: ___
   アラートレベルと対応: ___

3. Human-in-the-Loop設計:
   自動処理の条件: ___
   人的レビューの条件: ___
   サンプリングレビュー: ___

4. フィードバックループ:
   データ収集: ___
   モデル改善サイクル: ___
   KPI: ___
解答例を見る
【品質管理フレームワーク設計書】

1. メトリクス定義:
   共通: 処理成功率、レイテンシ(P50/P95/P99)、信頼度スコア平均、エラー率
   画像: 分類正解率、物体検出IoU
   音声: WER(単語誤り率)、話者分離精度
   文書: フィールド抽出F1スコア、テーブル構造認識精度
   統合: エンドツーエンド正解率、ユーザー満足度(CSAT)

2. 監視・アラート設計:
   リアルタイム: エラー率、レイテンシ、APIレートリミット
   日次: 各モダリティの精度トレンド、信頼度分布の変化
   アラートレベル:
   - INFO: 軽微な変動 → ログ記録のみ
   - WARNING: 精度5%低下 → Slackチーム通知
   - CRITICAL: 精度10%低下 or エラー率10%超 → PagerDutyでオンコール呼出

3. Human-in-the-Loop設計:
   自動処理: 信頼度90%以上かつ過去に同タイプ処理実績あり
   人的レビュー: 信頼度90%未満、初見パターン、高額取引関連
   サンプリング: 自動処理分から日次100件をランダムレビュー(品質維持確認)

4. フィードバックループ:
   データ収集: 人的レビュー結果をラベル付きデータとして蓄積
   改善サイクル: 月次でプロンプト調整、四半期でモデル評価・切替判断
   KPI: 月次の自動処理率(目標: 80%→90%)、人的レビュー指摘率(目標: 5%以下)

達成度チェック

評価項目A(優秀)B(合格)C(要改善)
パイプライン設計DAGで依存関係を明示、並行処理を活用基本的な処理フローを記述フローが不明確
モダリティ統合クロスモーダル分析を設計各モダリティの処理を定義統合方法が不明
品質管理検知・対応・改善のサイクルを設計基本的な監視を定義品質管理が不十分
実現性コスト・SLAを考慮した現実的設計技術的に実現可能非現実的な設計

推定所要時間: 60分