演習：LLMOps成熟度を評価しよう

ストーリー

田

田中VPoE

理論は一通り学んだ。ここからは実践だ。うちの組織のLLMOps成熟度を評価し、Level 3に到達するためのロードマップを作ってもらう

あなた

現在の3つのAIサービスの運用状況を整理するところからですね

あ

田

田中VPoE

そうだ。まず現状を正確に把握し、ギャップを特定し、優先度付きの改善計画を立てる。これがMonth 6全体の設計図になる

ミッション概要

項目	内容
演習タイトル	LLMOps成熟度評価とロードマップ策定
想定時間	60分
成果物	LLMOps成熟度評価書 + 改善ロードマップ

前提条件

組織の現状

AIサービスの運用状況:

1. CS-AI（カスタマーサポートAI）
   ├── 稼働開始: 6ヶ月前
   ├── 利用者: CS部門60名
   ├── 月間リクエスト: 50,000件
   ├── モデル: GPT-4o（OpenAI）
   ├── 月間APIコスト: 45万円
   ├── プロンプト管理: Notionにドキュメントとして保管
   ├── モニタリング: CloudWatchでエラー率のみ
   ├── 品質評価: なし（クレームベースで問題把握）
   ├── フォールバック: なし
   └── 担当者: 佐藤（個人で運用）

2. 社内FAQ Bot
   ├── 稼働開始: 3ヶ月前
   ├── 利用者: 全社500名
   ├── 月間リクエスト: 15,000件
   ├── モデル: Claude 3.5 Sonnet（Anthropic）
   ├── 月間APIコスト: 20万円
   ├── RAG: Pinecone + 社内Confluenceのデータ
   ├── プロンプト管理: コード内にハードコード
   ├── モニタリング: アプリケーションログのみ
   ├── 品質評価: なし
   ├── フォールバック: なし
   └── 担当者: 山田（個人で運用）

3. コードレビュー支援AI
   ├── 稼働開始: 1ヶ月前
   ├── 利用者: 開発部門30名（試験運用）
   ├── 月間リクエスト: 3,000件
   ├── モデル: GPT-4o（OpenAI）
   ├── 月間APIコスト: 35万円
   ├── プロンプト管理: GitHubリポジトリでYAML管理
   ├── モニタリング: なし
   ├── 品質評価: なし
   ├── フォールバック: なし
   └── 担当者: 田村（個人で運用）

共通の問題:
  - APIキーは各サービスで個別管理（環境変数）
  - 統合的なログ基盤なし
  - コスト管理はAWSの請求書ベースで月末に把握
  - 障害対応マニュアルなし
  - プロンプトの変更はレビューなしで直接反映

Mission 1: LLMOps成熟度の6軸評価

要件

前提条件の情報をもとに、組織のLLMOps成熟度を6軸で評価してください。

6軸それぞれのスコア（0-4点）と根拠
総合スコアと成熟度レベルの判定
最も改善が急がれる軸の特定

評価軸

軸	0点	1点	2点	3点	4点
プロンプト管理	管理なし	ドキュメント管理	Git管理	バージョン管理+レビュー	CI/CD+A/Bテスト
モニタリング	なし	エラー率のみ	構造化ログ+基本メトリクス	品質メトリクス+アラート	ドリフト検出+予測的運用
コスト管理	把握していない	月末に請求書で確認	リアルタイム可視化	予算管理+最適化	自動最適化+FinOps
信頼性	フォールバックなし	手動フォールバック	自動フォールバック	SLI/SLO+自動復旧	カオスエンジニアリング
セキュリティ	APIキー直接管理	シークレット管理	入力バリデーション+PII保護	監査ログ+定期検査	自動脅威検出+対応
改善サイクル	なし	クレームベース	フィードバック収集	A/Bテスト+定量評価	自動最適化ループ

解答例

6軸評価

評価軸	スコア	根拠
プロンプト管理	1	CS-AIはNotion管理（1点）、FAQ Botはハードコード（0点）、コードレビューはGit管理（2点）。平均して1点
モニタリング	1	CS-AIはCloudWatchでエラー率のみ（1点）。他はログベースまたはなし。品質メトリクスは一切なし
コスト管理	1	月末にAWS請求書で確認（1点）。リアルタイム可視化なし。ユースケース別のコスト把握も不可
信頼性	0	3サービスともフォールバックなし。SLI/SLOも未定義
セキュリティ	1	APIキーは環境変数管理（1点相当）。入力バリデーション、PII保護、監査ログはなし
改善サイクル	0	品質評価なし。フィードバック収集なし。クレームベースですらない（問題を把握する仕組みがない）

総合評価

総合スコア = (1 + 1 + 1 + 0 + 1 + 0) / 6 = 0.67

判定: Level 1: Basic（基本段階）の下位

信頼性と改善サイクルが0点であり、
Level 0に近い部分も混在している。

最も改善が急がれる軸

軸	理由
信頼性（0点）	フォールバックがないため、プロバイダ障害時にサービスが完全停止する。ビジネスインパクトが最大
改善サイクル（0点）	品質劣化に気づく仕組みがないため、問題が蓄積し続ける

Mission 2: 技術スタック選定

要件

以下の制約条件のもと、LLMOps技術スタックを選定してください。

各レイヤーで採用するツールとその理由
導入の優先順位（Phase 1/2/3）
概算コスト（月額）

制約条件

年間予算: 追加で500万円（既存APIコスト100万円/月とは別）
チーム: LLMOps専任を2名確保予定（現在は各サービス担当者3名が兼務）
データ: CS-AIのログには顧客の問い合わせ内容（PII含む可能性あり）
プロバイダ: OpenAI + Anthropicの2社

解答例

レイヤー	選定ツール	理由	Phase	月額コスト
APIゲートウェイ	LiteLLM	OpenAI+Anthropicの統一I/F。OSS。フォールバック対応	Phase 1	0円（OSS）
オブザーバビリティ	Langfuse（Self-hosted）	PII含むログの自社管理。OSS。コスト透明性	Phase 1	約5万円（インフラ費）
評価テスト	Promptfoo	CI/CD統合が容易。CLI対応。無料	Phase 2	0円（OSS）
プロンプト管理	Git + YAML	既存のGitHub運用フローに統合。追加コストなし	Phase 1	0円
コスト分析	Langfuse + カスタムダッシュボード	Langfuseのコスト追跡機能 + Grafanaでの可視化	Phase 2	約2万円
ベクトルDB	Pinecone（既存継続）	FAQ Botで利用中。移行コストを避ける	-	現状維持

Phase構成:

Phase 1（1-2ヶ月目）: APIゲートウェイ + オブザーバビリティ + プロンプト管理
Phase 2（3-4ヶ月目）: 評価テスト + コスト分析ダッシュボード
Phase 3（5-6ヶ月目）: A/Bテスト基盤 + アラート体制

年間追加コスト概算: 約100万円（ツール+インフラ）。予算500万円のうち残り400万円は人件費補填と予備費

Mission 3: 改善ロードマップ

要件

6ヶ月間の改善ロードマップを策定してください。

月別のマイルストーン
各マイルストーンの達成基準（Definition of Done）
リスクと対策

解答例

月	マイルストーン	達成基準	対応する評価軸
1ヶ月目	API Gateway + 基本ログ収集	全3サービスがLiteLLM経由。Langfuseにログ流入開始	信頼性、モニタリング
2ヶ月目	フォールバック + プロンプトGit管理	全サービスにフォールバック設定。プロンプトがGit管理下	信頼性、プロンプト管理
3ヶ月目	品質メトリクス + コスト可視化	Faithfulness/Relevance の自動計測。コストダッシュボード稼働	モニタリング、コスト管理
4ヶ月目	評価パイプライン + アラート	Promptfoo でCI/CD統合。品質・コスト・エラーのアラート設定	改善サイクル、モニタリング
5ヶ月目	PII保護 + 監査ログ	入力のPIIマスキング。操作の監査ログ記録	セキュリティ
6ヶ月目	A/Bテスト + フィードバック収集	プロンプトA/Bテストの実施。ユーザーフィードバック収集基盤	改善サイクル

目標到達レベル:

プロンプト管理: 1→3（Git管理+レビュープロセス）
モニタリング: 1→3（品質メトリクス+アラート）
コスト管理: 1→2（リアルタイム可視化）
信頼性: 0→2（自動フォールバック）
セキュリティ: 1→2（入力バリデーション+PII保護）
改善サイクル: 0→2（フィードバック収集）

リスクと対策:

リスク	影響度	対策
LiteLLM導入で既存サービスに影響	高	カナリアリリースで段階的に移行。1サービスずつ
Langfuseセルフホストの運用負荷	中	初期はCloud版を使い、PII問題が顕在化してからセルフホストに移行
専任2名の採用が遅れる	高	兼務メンバーで Phase 1 を開始。外部コンサル活用も検討

達成度チェック

観点	達成基準
成熟度評価	6軸のスコアに具体的な根拠があり、総合レベルの判定が妥当
技術スタック	制約条件を踏まえた現実的な選定。データ主権への配慮がある
ロードマップ	月別のマイルストーンが具体的で、達成基準が明確
リスク管理	主要リスクの特定と現実的な対策が記述されている

推定所要時間: 60分