EXERCISE 60分

ストーリー

田中VPoE
理論は一通り学んだ。ここからは実践だ。うちの組織のLLMOps成熟度を評価し、Level 3に到達するためのロードマップを作ってもらう
あなた
現在の3つのAIサービスの運用状況を整理するところからですね
田中VPoE
そうだ。まず現状を正確に把握し、ギャップを特定し、優先度付きの改善計画を立てる。これがMonth 6全体の設計図になる

ミッション概要

項目内容
演習タイトルLLMOps成熟度評価とロードマップ策定
想定時間60分
成果物LLMOps成熟度評価書 + 改善ロードマップ

前提条件

組織の現状

AIサービスの運用状況:

1. CS-AI(カスタマーサポートAI)
   ├── 稼働開始: 6ヶ月前
   ├── 利用者: CS部門60名
   ├── 月間リクエスト: 50,000件
   ├── モデル: GPT-4o(OpenAI)
   ├── 月間APIコスト: 45万円
   ├── プロンプト管理: Notionにドキュメントとして保管
   ├── モニタリング: CloudWatchでエラー率のみ
   ├── 品質評価: なし(クレームベースで問題把握)
   ├── フォールバック: なし
   └── 担当者: 佐藤(個人で運用)

2. 社内FAQ Bot
   ├── 稼働開始: 3ヶ月前
   ├── 利用者: 全社500名
   ├── 月間リクエスト: 15,000件
   ├── モデル: Claude 3.5 Sonnet(Anthropic)
   ├── 月間APIコスト: 20万円
   ├── RAG: Pinecone + 社内Confluenceのデータ
   ├── プロンプト管理: コード内にハードコード
   ├── モニタリング: アプリケーションログのみ
   ├── 品質評価: なし
   ├── フォールバック: なし
   └── 担当者: 山田(個人で運用)

3. コードレビュー支援AI
   ├── 稼働開始: 1ヶ月前
   ├── 利用者: 開発部門30名(試験運用)
   ├── 月間リクエスト: 3,000件
   ├── モデル: GPT-4o(OpenAI)
   ├── 月間APIコスト: 35万円
   ├── プロンプト管理: GitHubリポジトリでYAML管理
   ├── モニタリング: なし
   ├── 品質評価: なし
   ├── フォールバック: なし
   └── 担当者: 田村(個人で運用)

共通の問題:
  - APIキーは各サービスで個別管理(環境変数)
  - 統合的なログ基盤なし
  - コスト管理はAWSの請求書ベースで月末に把握
  - 障害対応マニュアルなし
  - プロンプトの変更はレビューなしで直接反映

Mission 1: LLMOps成熟度の6軸評価

要件

前提条件の情報をもとに、組織のLLMOps成熟度を6軸で評価してください。

  1. 6軸それぞれのスコア(0-4点)と根拠
  2. 総合スコア成熟度レベルの判定
  3. 最も改善が急がれる軸の特定

評価軸

0点1点2点3点4点
プロンプト管理管理なしドキュメント管理Git管理バージョン管理+レビューCI/CD+A/Bテスト
モニタリングなしエラー率のみ構造化ログ+基本メトリクス品質メトリクス+アラートドリフト検出+予測的運用
コスト管理把握していない月末に請求書で確認リアルタイム可視化予算管理+最適化自動最適化+FinOps
信頼性フォールバックなし手動フォールバック自動フォールバックSLI/SLO+自動復旧カオスエンジニアリング
セキュリティAPIキー直接管理シークレット管理入力バリデーション+PII保護監査ログ+定期検査自動脅威検出+対応
改善サイクルなしクレームベースフィードバック収集A/Bテスト+定量評価自動最適化ループ
解答例

6軸評価

評価軸スコア根拠
プロンプト管理1CS-AIはNotion管理(1点)、FAQ Botはハードコード(0点)、コードレビューはGit管理(2点)。平均して1点
モニタリング1CS-AIはCloudWatchでエラー率のみ(1点)。他はログベースまたはなし。品質メトリクスは一切なし
コスト管理1月末にAWS請求書で確認(1点)。リアルタイム可視化なし。ユースケース別のコスト把握も不可
信頼性03サービスともフォールバックなし。SLI/SLOも未定義
セキュリティ1APIキーは環境変数管理(1点相当)。入力バリデーション、PII保護、監査ログはなし
改善サイクル0品質評価なし。フィードバック収集なし。クレームベースですらない(問題を把握する仕組みがない)

総合評価

総合スコア = (1 + 1 + 1 + 0 + 1 + 0) / 6 = 0.67

判定: Level 1: Basic(基本段階)の下位

信頼性と改善サイクルが0点であり、
Level 0に近い部分も混在している。

最も改善が急がれる軸

理由
信頼性(0点)フォールバックがないため、プロバイダ障害時にサービスが完全停止する。ビジネスインパクトが最大
改善サイクル(0点)品質劣化に気づく仕組みがないため、問題が蓄積し続ける

Mission 2: 技術スタック選定

要件

以下の制約条件のもと、LLMOps技術スタックを選定してください。

  1. 各レイヤーで採用するツールとその理由
  2. 導入の優先順位(Phase 1/2/3)
  3. 概算コスト(月額)

制約条件

  • 年間予算: 追加で500万円(既存APIコスト100万円/月とは別)
  • チーム: LLMOps専任を2名確保予定(現在は各サービス担当者3名が兼務)
  • データ: CS-AIのログには顧客の問い合わせ内容(PII含む可能性あり)
  • プロバイダ: OpenAI + Anthropicの2社
解答例
レイヤー選定ツール理由Phase月額コスト
APIゲートウェイLiteLLMOpenAI+Anthropicの統一I/F。OSS。フォールバック対応Phase 10円(OSS)
オブザーバビリティLangfuse(Self-hosted)PII含むログの自社管理。OSS。コスト透明性Phase 1約5万円(インフラ費)
評価テストPromptfooCI/CD統合が容易。CLI対応。無料Phase 20円(OSS)
プロンプト管理Git + YAML既存のGitHub運用フローに統合。追加コストなしPhase 10円
コスト分析Langfuse + カスタムダッシュボードLangfuseのコスト追跡機能 + Grafanaでの可視化Phase 2約2万円
ベクトルDBPinecone(既存継続)FAQ Botで利用中。移行コストを避ける-現状維持

Phase構成:

  • Phase 1(1-2ヶ月目): APIゲートウェイ + オブザーバビリティ + プロンプト管理
  • Phase 2(3-4ヶ月目): 評価テスト + コスト分析ダッシュボード
  • Phase 3(5-6ヶ月目): A/Bテスト基盤 + アラート体制

年間追加コスト概算: 約100万円(ツール+インフラ)。予算500万円のうち残り400万円は人件費補填と予備費


Mission 3: 改善ロードマップ

要件

6ヶ月間の改善ロードマップを策定してください。

  1. 月別のマイルストーン
  2. 各マイルストーンの達成基準(Definition of Done)
  3. リスクと対策
解答例
マイルストーン達成基準対応する評価軸
1ヶ月目API Gateway + 基本ログ収集全3サービスがLiteLLM経由。Langfuseにログ流入開始信頼性、モニタリング
2ヶ月目フォールバック + プロンプトGit管理全サービスにフォールバック設定。プロンプトがGit管理下信頼性、プロンプト管理
3ヶ月目品質メトリクス + コスト可視化Faithfulness/Relevance の自動計測。コストダッシュボード稼働モニタリング、コスト管理
4ヶ月目評価パイプライン + アラートPromptfoo でCI/CD統合。品質・コスト・エラーのアラート設定改善サイクル、モニタリング
5ヶ月目PII保護 + 監査ログ入力のPIIマスキング。操作の監査ログ記録セキュリティ
6ヶ月目A/Bテスト + フィードバック収集プロンプトA/Bテストの実施。ユーザーフィードバック収集基盤改善サイクル

目標到達レベル:

  • プロンプト管理: 1→3(Git管理+レビュープロセス)
  • モニタリング: 1→3(品質メトリクス+アラート)
  • コスト管理: 1→2(リアルタイム可視化)
  • 信頼性: 0→2(自動フォールバック)
  • セキュリティ: 1→2(入力バリデーション+PII保護)
  • 改善サイクル: 0→2(フィードバック収集)

リスクと対策:

リスク影響度対策
LiteLLM導入で既存サービスに影響カナリアリリースで段階的に移行。1サービスずつ
Langfuseセルフホストの運用負荷初期はCloud版を使い、PII問題が顕在化してからセルフホストに移行
専任2名の採用が遅れる兼務メンバーで Phase 1 を開始。外部コンサル活用も検討

達成度チェック

観点達成基準
成熟度評価6軸のスコアに具体的な根拠があり、総合レベルの判定が妥当
技術スタック制約条件を踏まえた現実的な選定。データ主権への配慮がある
ロードマップ月別のマイルストーンが具体的で、達成基準が明確
リスク管理主要リスクの特定と現実的な対策が記述されている

推定所要時間: 60分