総合演習：LLMOps基盤設計書

ストーリー

田

田中VPoE

Month 6の総仕上げだ。これまで学んだLLMOps全体を統合して、NetShop社のLLMOps基盤設計書を策定してもらう

あなた

デプロイ、モニタリング、コスト最適化、継続的改善の全てを含む設計書ですね

あ

田

田中VPoE

CTO佐藤がこの設計書をベースに来期のAI運用予算と体制を確定させる。技術面だけでなく、組織・予算・ロードマップまで含めた包括的な設計を頼む

あなた

NetShop社のAI運用の基盤となる設計書を仕上げます

あ

ミッション概要

項目	内容
目標	NetShop社のLLMOps基盤設計書を策定する
所要時間	90分
ミッション数	3つ（段階的に策定）
使用知識	Month 6全Step
評価観点	技術的完成度、運用の実現性、コスト効率、組織設計

前提条件

【NetShop社AI運用の現状と課題】

現在の運用状況:
- 6つのAIシステムが本番稼働中
- 月間AIコスト: ¥1,000,000（予算: ¥1,000,000）
- SRE/運用専任者: 0名（開発チームが兼務）
- モニタリング: CloudWatchの基本メトリクスのみ
- デプロイ: 手動デプロイ、ロールバック手順なし
- 障害対応: 属人化、ランブックなし

来期の目標:
- AIコストを30%削減（¥700,000/月以下）
- AI応答品質を20%向上（CSAT 72%→85%以上）
- インシデント対応時間を50%短縮
- 新規AIシステム3つの追加（合計9システム）

Mission 1: サービング基盤とモニタリング設計（30分）

タスク

【サービング・モニタリング設計書】

1. サービング基盤アーキテクチャ:
   全体アーキテクチャ図: ___
   API Gateway設計: ___
   フォールバック戦略: ___
   スケーリング設計: ___

2. モニタリング基盤:
   メトリクス体系: ___
   ダッシュボード設計: ___
   アラート設計: ___
   ドリフト検出: ___

3. インシデント対応体制:
   対応フロー: ___
   ランブック（主要3件）: ___

4. 技術スタック:
   | レイヤー | 技術 | 理由 |
   |---------|------|------|
   | ___ | ___ | ___ |

解答例を見る

1. サービング基盤:
   アーキテクチャ:
   [クライアント] → [API Gateway(Kong)] → [モデルルーター(Lambda)]
     → [プライマリ: OpenAI/Anthropic]
     → [フォールバック: 代替モデル]
     → [キャッシュ(ElastiCache)]
   → [レスポンス] + [ログ(CloudWatch→S3)]

   API Gateway: レート制限、認証、リクエスト変換、ヘルスチェック
   フォールバック: OpenAI→Anthropic→ローカルモデル(低品質但し継続)
   スケーリング: ECS Fargateオートスケール、Lambda(バースト対応)

2. モニタリング:
   メトリクス: エラー率/レイテンシ/スループット(共通) + システム固有
   ダッシュボード: エグゼクティブ(日次)、オペレーション(1分)、コスト(時間)
   アラート: 4段階(INFO/WARNING/ERROR/CRITICAL)、PagerDuty連携
   ドリフト: PSI日次計測、埋め込みドリフト週次

3. インシデント対応:
   フロー: 検知(自動/報告)→トリアージ(5分)→初動(30分)→調査→是正→レポート
   ランブック:
   - エラー率急増: API状態確認→フォールバック切替→原因調査
   - 品質低下: ドリフト確認→プロンプト/モデル確認→ロールバック
   - コスト急増: リクエスト分析→不要リクエスト遮断→制限適用

4. 技術スタック:
   | レイヤー | 技術 | 理由 |
   |---------|------|------|
   | Gateway | Kong on ECS | 柔軟なプラグイン、高可用性 |
   | コンピュート | ECS Fargate + Lambda | コンテナ+サーバーレス |
   | キャッシュ | ElastiCache(Redis) | セマンティックキャッシュ |
   | ログ | CloudWatch + S3 + Athena | コスト効率、SQL分析 |
   | 監視 | Grafana + PagerDuty | 可視化+アラート |
   | CI/CD | CodePipeline + CodeDeploy | カナリアデプロイ |

Mission 2: コスト最適化と継続的改善設計（30分）

タスク

【コスト最適化・継続的改善設計書】

1. コスト最適化計画:
   現状分析: ___
   最適化施策（優先順位付き）: ___
   目標コスト内訳: ___

2. 継続的改善サイクル:
   フィードバック収集設計: ___
   改善サイクルの運用: ___
   A/Bテスト基盤: ___

3. FinOps体制:
   コスト可視化: ___
   予算管理: ___
   月次レビュー: ___

4. 品質改善ロードマップ:
   | 月 | 施策 | 期待効果 |
   |----|------|---------|
   | ___ | ___ | ___ |

解答例を見る

1. コスト最適化:
   現状: ¥1,000K/月、7割がAPIトークン費用
   施策:
   1位: チャットボットのモデルルーティング(¥140K削減、2週間)
   2位: セマンティックキャッシュ(¥105K削減、3週間)
   3位: 商品説明のBatch API化(¥40K削減、1週間)
   4位: 通話記録プロンプト圧縮(¥36K削減、1週間)
   目標: ¥1,000K → ¥679K（32%削減）

2. 継続的改善:
   フィードバック: Good/Badボタン + 暗黙的シグナル + QA週100件レビュー
   サイクル: 日次(緊急対応)→週次(FB分析)→月次(KPIレビュー)→四半期(大規模改善)
   A/Bテスト: Feature Flagベースのトラフィック分割、自動統計分析

3. FinOps:
   可視化: システム別/モデル別の日次コストダッシュボード
   予算: システム別上限設定、月間消化率80%でWARNING
   レビュー: 月次でAI推進+経理+各システム担当が参加

4. 品質ロードマップ:
   | 月 | 施策 | 効果 |
   |----|------|------|
   | M1 | RAG知識ベース更新+ファクトチェック追加 | 不正確回答30%減 |
   | M2 | 質問分類改善+プロンプト最適化 | 的外れ回答20%減 |
   | M3 | 出力長最適化+回答テンプレート化 | 冗長回答50%減 |
   | M4-6 | A/Bテストサイクルの定着 | CSAT 85%達成 |

Mission 3: 組織体制とロードマップ（30分）

タスク

【組織・ロードマップ設計書】

1. LLMOps組織体制:
   必要な役割と人員: ___
   責任分担: ___

2. 12ヶ月ロードマップ:
   | Phase | 期間 | 施策 | 予算 | KPI |
   |-------|------|------|------|-----|
   | ___ | ___ | ___ | ___ | ___ |

3. 投資計画:
   | 項目 | 初年度 | 2年目以降 |
   |------|--------|---------|
   | ___ | ___ | ___ |

4. 成熟度ロードマップ:
   現状(Level): ___
   6ヶ月後: ___
   12ヶ月後: ___

5. 経営層への提言:
   ___

解答例を見る

1. 組織体制:
   AI Platform Engineer(1名新規): モニタリング、CI/CD、インフラ
   AI Quality Engineer(1名新規): 品質監視、A/Bテスト、改善推進
   既存AI開発チーム(3名): プロンプト改善、モデル選定、新機能開発
   SRE兼任(1名既存): オンコール、インシデント対応
   責任: Platform→基盤構築・運用、Quality→品質改善・テスト、
         開発→機能開発・最適化、SRE→障害対応・可用性

2. ロードマップ:
   | Phase | 期間 | 施策 | 予算 | KPI |
   |-------|------|------|------|-----|
   | 基盤 | M1-3 | モニタリング構築、コスト最適化 | 500万 | コスト30%減 |
   | 品質 | M4-6 | 品質改善、A/Bテスト基盤 | 300万 | CSAT 80% |
   | 拡張 | M7-9 | 新システム3つ追加、CI/CD整備 | 400万 | 9システム安定運用 |
   | 最適化 | M10-12 | 全体最適化、自動化推進 | 200万 | CSAT 85% |

3. 投資計画:
   | 項目 | 初年度 | 2年目以降 |
   |------|--------|---------|
   | 人件費(2名増) | 1,600万 | 1,600万 |
   | インフラ | 400万 | 300万 |
   | ツール・ライセンス | 200万 | 200万 |
   | AIコスト | 840万(30%減) | 750万 |
   | 合計 | 3,040万 | 2,850万 |

4. 成熟度:
   現状(Level 1): 場当たり的。手動デプロイ、監視なし、属人化
   6ヶ月後(Level 3): 体系化。監視基盤、CI/CD、コスト管理、品質改善サイクル
   12ヶ月後(Level 4): 最適化。自動化、データ駆動改善、予測的運用

5. 提言:
   「守りの投資」として年間3,000万円のLLMOps基盤構築を提案。
   AIコスト30%削減(年間360万円)と品質向上によるCS効率化(年間500万円)
   に加え、インシデント対応の迅速化と新システム追加の加速が期待。
   投資回収は18ヶ月を見込む。人員2名の増強が最優先事項。

達成度チェック

評価項目	A（優秀）	B（合格）	C（要改善）
基盤設計	フォールバック含む高可用設計	主要コンポーネントを網羅	設計が不十分
コスト最適化	定量的なROI付き計画	基本的な最適化施策	施策が具体性に欠ける
継続的改善	データ駆動の改善サイクル	基本的な改善プロセス	改善の仕組みがない
組織・予算	人員・予算・ロードマップが具体的	基本的な計画がある	計画が非現実的

推定所要時間: 90分