ストーリー
ミッション概要
| 項目 | 内容 |
|---|---|
| 演習タイトル | LLMOps成熟度評価とロードマップ策定 |
| 想定時間 | 60分 |
| 成果物 | LLMOps成熟度評価書 + 改善ロードマップ |
前提条件
組織の現状
AIサービスの運用状況:
1. CS-AI(カスタマーサポートAI)
├── 稼働開始: 6ヶ月前
├── 利用者: CS部門60名
├── 月間リクエスト: 50,000件
├── モデル: GPT-4o(OpenAI)
├── 月間APIコスト: 45万円
├── プロンプト管理: Notionにドキュメントとして保管
├── モニタリング: CloudWatchでエラー率のみ
├── 品質評価: なし(クレームベースで問題把握)
├── フォールバック: なし
└── 担当者: 佐藤(個人で運用)
2. 社内FAQ Bot
├── 稼働開始: 3ヶ月前
├── 利用者: 全社500名
├── 月間リクエスト: 15,000件
├── モデル: Claude 3.5 Sonnet(Anthropic)
├── 月間APIコスト: 20万円
├── RAG: Pinecone + 社内Confluenceのデータ
├── プロンプト管理: コード内にハードコード
├── モニタリング: アプリケーションログのみ
├── 品質評価: なし
├── フォールバック: なし
└── 担当者: 山田(個人で運用)
3. コードレビュー支援AI
├── 稼働開始: 1ヶ月前
├── 利用者: 開発部門30名(試験運用)
├── 月間リクエスト: 3,000件
├── モデル: GPT-4o(OpenAI)
├── 月間APIコスト: 35万円
├── プロンプト管理: GitHubリポジトリでYAML管理
├── モニタリング: なし
├── 品質評価: なし
├── フォールバック: なし
└── 担当者: 田村(個人で運用)
共通の問題:
- APIキーは各サービスで個別管理(環境変数)
- 統合的なログ基盤なし
- コスト管理はAWSの請求書ベースで月末に把握
- 障害対応マニュアルなし
- プロンプトの変更はレビューなしで直接反映
Mission 1: LLMOps成熟度の6軸評価
要件
前提条件の情報をもとに、組織のLLMOps成熟度を6軸で評価してください。
- 6軸それぞれのスコア(0-4点)と根拠
- 総合スコアと成熟度レベルの判定
- 最も改善が急がれる軸の特定
評価軸
| 軸 | 0点 | 1点 | 2点 | 3点 | 4点 |
|---|---|---|---|---|---|
| プロンプト管理 | 管理なし | ドキュメント管理 | Git管理 | バージョン管理+レビュー | CI/CD+A/Bテスト |
| モニタリング | なし | エラー率のみ | 構造化ログ+基本メトリクス | 品質メトリクス+アラート | ドリフト検出+予測的運用 |
| コスト管理 | 把握していない | 月末に請求書で確認 | リアルタイム可視化 | 予算管理+最適化 | 自動最適化+FinOps |
| 信頼性 | フォールバックなし | 手動フォールバック | 自動フォールバック | SLI/SLO+自動復旧 | カオスエンジニアリング |
| セキュリティ | APIキー直接管理 | シークレット管理 | 入力バリデーション+PII保護 | 監査ログ+定期検査 | 自動脅威検出+対応 |
| 改善サイクル | なし | クレームベース | フィードバック収集 | A/Bテスト+定量評価 | 自動最適化ループ |
解答例
6軸評価
| 評価軸 | スコア | 根拠 |
|---|---|---|
| プロンプト管理 | 1 | CS-AIはNotion管理(1点)、FAQ Botはハードコード(0点)、コードレビューはGit管理(2点)。平均して1点 |
| モニタリング | 1 | CS-AIはCloudWatchでエラー率のみ(1点)。他はログベースまたはなし。品質メトリクスは一切なし |
| コスト管理 | 1 | 月末にAWS請求書で確認(1点)。リアルタイム可視化なし。ユースケース別のコスト把握も不可 |
| 信頼性 | 0 | 3サービスともフォールバックなし。SLI/SLOも未定義 |
| セキュリティ | 1 | APIキーは環境変数管理(1点相当)。入力バリデーション、PII保護、監査ログはなし |
| 改善サイクル | 0 | 品質評価なし。フィードバック収集なし。クレームベースですらない(問題を把握する仕組みがない) |
総合評価
総合スコア = (1 + 1 + 1 + 0 + 1 + 0) / 6 = 0.67
判定: Level 1: Basic(基本段階)の下位
信頼性と改善サイクルが0点であり、
Level 0に近い部分も混在している。
最も改善が急がれる軸
| 軸 | 理由 |
|---|---|
| 信頼性(0点) | フォールバックがないため、プロバイダ障害時にサービスが完全停止する。ビジネスインパクトが最大 |
| 改善サイクル(0点) | 品質劣化に気づく仕組みがないため、問題が蓄積し続ける |
Mission 2: 技術スタック選定
要件
以下の制約条件のもと、LLMOps技術スタックを選定してください。
- 各レイヤーで採用するツールとその理由
- 導入の優先順位(Phase 1/2/3)
- 概算コスト(月額)
制約条件
- 年間予算: 追加で500万円(既存APIコスト100万円/月とは別)
- チーム: LLMOps専任を2名確保予定(現在は各サービス担当者3名が兼務)
- データ: CS-AIのログには顧客の問い合わせ内容(PII含む可能性あり)
- プロバイダ: OpenAI + Anthropicの2社
解答例
| レイヤー | 選定ツール | 理由 | Phase | 月額コスト |
|---|---|---|---|---|
| APIゲートウェイ | LiteLLM | OpenAI+Anthropicの統一I/F。OSS。フォールバック対応 | Phase 1 | 0円(OSS) |
| オブザーバビリティ | Langfuse(Self-hosted) | PII含むログの自社管理。OSS。コスト透明性 | Phase 1 | 約5万円(インフラ費) |
| 評価テスト | Promptfoo | CI/CD統合が容易。CLI対応。無料 | Phase 2 | 0円(OSS) |
| プロンプト管理 | Git + YAML | 既存のGitHub運用フローに統合。追加コストなし | Phase 1 | 0円 |
| コスト分析 | Langfuse + カスタムダッシュボード | Langfuseのコスト追跡機能 + Grafanaでの可視化 | Phase 2 | 約2万円 |
| ベクトルDB | Pinecone(既存継続) | FAQ Botで利用中。移行コストを避ける | - | 現状維持 |
Phase構成:
- Phase 1(1-2ヶ月目): APIゲートウェイ + オブザーバビリティ + プロンプト管理
- Phase 2(3-4ヶ月目): 評価テスト + コスト分析ダッシュボード
- Phase 3(5-6ヶ月目): A/Bテスト基盤 + アラート体制
年間追加コスト概算: 約100万円(ツール+インフラ)。予算500万円のうち残り400万円は人件費補填と予備費
Mission 3: 改善ロードマップ
要件
6ヶ月間の改善ロードマップを策定してください。
- 月別のマイルストーン
- 各マイルストーンの達成基準(Definition of Done)
- リスクと対策
解答例
| 月 | マイルストーン | 達成基準 | 対応する評価軸 |
|---|---|---|---|
| 1ヶ月目 | API Gateway + 基本ログ収集 | 全3サービスがLiteLLM経由。Langfuseにログ流入開始 | 信頼性、モニタリング |
| 2ヶ月目 | フォールバック + プロンプトGit管理 | 全サービスにフォールバック設定。プロンプトがGit管理下 | 信頼性、プロンプト管理 |
| 3ヶ月目 | 品質メトリクス + コスト可視化 | Faithfulness/Relevance の自動計測。コストダッシュボード稼働 | モニタリング、コスト管理 |
| 4ヶ月目 | 評価パイプライン + アラート | Promptfoo でCI/CD統合。品質・コスト・エラーのアラート設定 | 改善サイクル、モニタリング |
| 5ヶ月目 | PII保護 + 監査ログ | 入力のPIIマスキング。操作の監査ログ記録 | セキュリティ |
| 6ヶ月目 | A/Bテスト + フィードバック収集 | プロンプトA/Bテストの実施。ユーザーフィードバック収集基盤 | 改善サイクル |
目標到達レベル:
- プロンプト管理: 1→3(Git管理+レビュープロセス)
- モニタリング: 1→3(品質メトリクス+アラート)
- コスト管理: 1→2(リアルタイム可視化)
- 信頼性: 0→2(自動フォールバック)
- セキュリティ: 1→2(入力バリデーション+PII保護)
- 改善サイクル: 0→2(フィードバック収集)
リスクと対策:
| リスク | 影響度 | 対策 |
|---|---|---|
| LiteLLM導入で既存サービスに影響 | 高 | カナリアリリースで段階的に移行。1サービスずつ |
| Langfuseセルフホストの運用負荷 | 中 | 初期はCloud版を使い、PII問題が顕在化してからセルフホストに移行 |
| 専任2名の採用が遅れる | 高 | 兼務メンバーで Phase 1 を開始。外部コンサル活用も検討 |
達成度チェック
| 観点 | 達成基準 |
|---|---|
| 成熟度評価 | 6軸のスコアに具体的な根拠があり、総合レベルの判定が妥当 |
| 技術スタック | 制約条件を踏まえた現実的な選定。データ主権への配慮がある |
| ロードマップ | 月別のマイルストーンが具体的で、達成基準が明確 |
| リスク管理 | 主要リスクの特定と現実的な対策が記述されている |
推定所要時間: 60分