ストーリー
田
田中VPoE
Month 6の総仕上げだ。これまで学んだLLMOps全体を統合して、NetShop社のLLMOps基盤設計書を策定してもらう
あなた
デプロイ、モニタリング、コスト最適化、継続的改善の全てを含む設計書ですね
あ
田
田中VPoE
CTO佐藤がこの設計書をベースに来期のAI運用予算と体制を確定させる。技術面だけでなく、組織・予算・ロードマップまで含めた包括的な設計を頼む
あなた
NetShop社のAI運用の基盤となる設計書を仕上げます
あ
ミッション概要
| 項目 | 内容 |
|---|
| 目標 | NetShop社のLLMOps基盤設計書を策定する |
| 所要時間 | 90分 |
| ミッション数 | 3つ(段階的に策定) |
| 使用知識 | Month 6全Step |
| 評価観点 | 技術的完成度、運用の実現性、コスト効率、組織設計 |
前提条件
【NetShop社AI運用の現状と課題】
現在の運用状況:
- 6つのAIシステムが本番稼働中
- 月間AIコスト: ¥1,000,000(予算: ¥1,000,000)
- SRE/運用専任者: 0名(開発チームが兼務)
- モニタリング: CloudWatchの基本メトリクスのみ
- デプロイ: 手動デプロイ、ロールバック手順なし
- 障害対応: 属人化、ランブックなし
来期の目標:
- AIコストを30%削減(¥700,000/月以下)
- AI応答品質を20%向上(CSAT 72%→85%以上)
- インシデント対応時間を50%短縮
- 新規AIシステム3つの追加(合計9システム)
Mission 1: サービング基盤とモニタリング設計(30分)
タスク
【サービング・モニタリング設計書】
1. サービング基盤アーキテクチャ:
全体アーキテクチャ図: ___
API Gateway設計: ___
フォールバック戦略: ___
スケーリング設計: ___
2. モニタリング基盤:
メトリクス体系: ___
ダッシュボード設計: ___
アラート設計: ___
ドリフト検出: ___
3. インシデント対応体制:
対応フロー: ___
ランブック(主要3件): ___
4. 技術スタック:
| レイヤー | 技術 | 理由 |
|---------|------|------|
| ___ | ___ | ___ |
解答例を見る
1. サービング基盤:
アーキテクチャ:
[クライアント] → [API Gateway(Kong)] → [モデルルーター(Lambda)]
→ [プライマリ: OpenAI/Anthropic]
→ [フォールバック: 代替モデル]
→ [キャッシュ(ElastiCache)]
→ [レスポンス] + [ログ(CloudWatch→S3)]
API Gateway: レート制限、認証、リクエスト変換、ヘルスチェック
フォールバック: OpenAI→Anthropic→ローカルモデル(低品質但し継続)
スケーリング: ECS Fargateオートスケール、Lambda(バースト対応)
2. モニタリング:
メトリクス: エラー率/レイテンシ/スループット(共通) + システム固有
ダッシュボード: エグゼクティブ(日次)、オペレーション(1分)、コスト(時間)
アラート: 4段階(INFO/WARNING/ERROR/CRITICAL)、PagerDuty連携
ドリフト: PSI日次計測、埋め込みドリフト週次
3. インシデント対応:
フロー: 検知(自動/報告)→トリアージ(5分)→初動(30分)→調査→是正→レポート
ランブック:
- エラー率急増: API状態確認→フォールバック切替→原因調査
- 品質低下: ドリフト確認→プロンプト/モデル確認→ロールバック
- コスト急増: リクエスト分析→不要リクエスト遮断→制限適用
4. 技術スタック:
| レイヤー | 技術 | 理由 |
|---------|------|------|
| Gateway | Kong on ECS | 柔軟なプラグイン、高可用性 |
| コンピュート | ECS Fargate + Lambda | コンテナ+サーバーレス |
| キャッシュ | ElastiCache(Redis) | セマンティックキャッシュ |
| ログ | CloudWatch + S3 + Athena | コスト効率、SQL分析 |
| 監視 | Grafana + PagerDuty | 可視化+アラート |
| CI/CD | CodePipeline + CodeDeploy | カナリアデプロイ |
Mission 2: コスト最適化と継続的改善設計(30分)
タスク
【コスト最適化・継続的改善設計書】
1. コスト最適化計画:
現状分析: ___
最適化施策(優先順位付き): ___
目標コスト内訳: ___
2. 継続的改善サイクル:
フィードバック収集設計: ___
改善サイクルの運用: ___
A/Bテスト基盤: ___
3. FinOps体制:
コスト可視化: ___
予算管理: ___
月次レビュー: ___
4. 品質改善ロードマップ:
| 月 | 施策 | 期待効果 |
|----|------|---------|
| ___ | ___ | ___ |
解答例を見る
1. コスト最適化:
現状: ¥1,000K/月、7割がAPIトークン費用
施策:
1位: チャットボットのモデルルーティング(¥140K削減、2週間)
2位: セマンティックキャッシュ(¥105K削減、3週間)
3位: 商品説明のBatch API化(¥40K削減、1週間)
4位: 通話記録プロンプト圧縮(¥36K削減、1週間)
目標: ¥1,000K → ¥679K(32%削減)
2. 継続的改善:
フィードバック: Good/Badボタン + 暗黙的シグナル + QA週100件レビュー
サイクル: 日次(緊急対応)→週次(FB分析)→月次(KPIレビュー)→四半期(大規模改善)
A/Bテスト: Feature Flagベースのトラフィック分割、自動統計分析
3. FinOps:
可視化: システム別/モデル別の日次コストダッシュボード
予算: システム別上限設定、月間消化率80%でWARNING
レビュー: 月次でAI推進+経理+各システム担当が参加
4. 品質ロードマップ:
| 月 | 施策 | 効果 |
|----|------|------|
| M1 | RAG知識ベース更新+ファクトチェック追加 | 不正確回答30%減 |
| M2 | 質問分類改善+プロンプト最適化 | 的外れ回答20%減 |
| M3 | 出力長最適化+回答テンプレート化 | 冗長回答50%減 |
| M4-6 | A/Bテストサイクルの定着 | CSAT 85%達成 |
Mission 3: 組織体制とロードマップ(30分)
タスク
【組織・ロードマップ設計書】
1. LLMOps組織体制:
必要な役割と人員: ___
責任分担: ___
2. 12ヶ月ロードマップ:
| Phase | 期間 | 施策 | 予算 | KPI |
|-------|------|------|------|-----|
| ___ | ___ | ___ | ___ | ___ |
3. 投資計画:
| 項目 | 初年度 | 2年目以降 |
|------|--------|---------|
| ___ | ___ | ___ |
4. 成熟度ロードマップ:
現状(Level): ___
6ヶ月後: ___
12ヶ月後: ___
5. 経営層への提言:
___
解答例を見る
1. 組織体制:
AI Platform Engineer(1名新規): モニタリング、CI/CD、インフラ
AI Quality Engineer(1名新規): 品質監視、A/Bテスト、改善推進
既存AI開発チーム(3名): プロンプト改善、モデル選定、新機能開発
SRE兼任(1名既存): オンコール、インシデント対応
責任: Platform→基盤構築・運用、Quality→品質改善・テスト、
開発→機能開発・最適化、SRE→障害対応・可用性
2. ロードマップ:
| Phase | 期間 | 施策 | 予算 | KPI |
|-------|------|------|------|-----|
| 基盤 | M1-3 | モニタリング構築、コスト最適化 | 500万 | コスト30%減 |
| 品質 | M4-6 | 品質改善、A/Bテスト基盤 | 300万 | CSAT 80% |
| 拡張 | M7-9 | 新システム3つ追加、CI/CD整備 | 400万 | 9システム安定運用 |
| 最適化 | M10-12 | 全体最適化、自動化推進 | 200万 | CSAT 85% |
3. 投資計画:
| 項目 | 初年度 | 2年目以降 |
|------|--------|---------|
| 人件費(2名増) | 1,600万 | 1,600万 |
| インフラ | 400万 | 300万 |
| ツール・ライセンス | 200万 | 200万 |
| AIコスト | 840万(30%減) | 750万 |
| 合計 | 3,040万 | 2,850万 |
4. 成熟度:
現状(Level 1): 場当たり的。手動デプロイ、監視なし、属人化
6ヶ月後(Level 3): 体系化。監視基盤、CI/CD、コスト管理、品質改善サイクル
12ヶ月後(Level 4): 最適化。自動化、データ駆動改善、予測的運用
5. 提言:
「守りの投資」として年間3,000万円のLLMOps基盤構築を提案。
AIコスト30%削減(年間360万円)と品質向上によるCS効率化(年間500万円)
に加え、インシデント対応の迅速化と新システム追加の加速が期待。
投資回収は18ヶ月を見込む。人員2名の増強が最優先事項。
達成度チェック
| 評価項目 | A(優秀) | B(合格) | C(要改善) |
|---|
| 基盤設計 | フォールバック含む高可用設計 | 主要コンポーネントを網羅 | 設計が不十分 |
| コスト最適化 | 定量的なROI付き計画 | 基本的な最適化施策 | 施策が具体性に欠ける |
| 継続的改善 | データ駆動の改善サイクル | 基本的な改善プロセス | 改善の仕組みがない |
| 組織・予算 | 人員・予算・ロードマップが具体的 | 基本的な計画がある | 計画が非現実的 |
推定所要時間: 90分