演習：AIコスト最適化計画を策定しよう

ストーリー

田

田中VPoE

AIコスト構造、トークン最適化、キャッシュ戦略、FinOpsを学んだ。ここからは実践だ。実はうちの全社AIチャットボット、コストが当初見積もりの4倍に膨れ上がっている

あなた

4倍ですか。CFOが怒っているわけですね

あ

田

田中VPoE

当初は月額50万円の見積もりだった。それが今や200万円だ。CFOから「3ヶ月以内にコストを50%削減せよ」という指示が出ている

あなた

50%削減…100万円以下にするということですね。かなりの挑戦です

あ

田

田中VPoE

まずコスト増の原因を分析し、次に具体的な削減計画を立て、最後にFinOps体制を設計してほしい。技術だけでなく、組織的な仕組みとして定着させるところまでだ

ミッション概要

項目	内容
演習タイトル	AIコスト最適化計画の策定
想定時間	90分
成果物	コスト分析レポート + 削減計画書 + FinOps体制設計書

前提条件

現在のシステム構成

全社AIチャットボット「AI-Assistant」

利用状況:
  - 月間クエリ数: 100,000（当初見積もり: 30,000）
  - アクティブユーザー数: 2,500人（5部門）
  - 稼働: 24時間365日

技術構成:
  - LLM: GPT-4o（全クエリで使用）
  - RAG: ベクトルDB（Pinecone）+ 社内ドキュメント5,000件
  - チャンクサイズ: 1,000トークン（top-5で送信）
  - キャッシュ: なし
  - システムプロンプト: 1,500トークン（日本語で詳細記述）
  - 会話履歴: 直近10ターン分を毎回送信

月額コスト内訳:
  ┌──────────────────────────────────────┐
  │ LLM API利用料（GPT-4o）    ¥1,200,000│
  │ Embedding API               ¥50,000 │
  │ Pinecone（ベクトルDB）       ¥80,000 │
  │ インフラ（AWS）              ¥150,000│
  │ LangSmith（モニタリング）     ¥30,000 │
  │ その他                       ¥40,000 │
  ├──────────────────────────────────────┤
  │ 月額合計                   ¥1,550,000│
  │ + 人件費（運用0.5人月）     ¥450,000 │
  ├──────────────────────────────────────┤
  │ 総額                       ¥2,000,000│
  └──────────────────────────────────────┘

クエリパターン分析:
  - FAQ系（定型質問）: 45%
  - 文書検索系（RAG活用）: 30%
  - 分析・要約系（複雑な推論）: 15%
  - 雑談・対象外: 10%

トークン消費の内訳（1リクエストあたり平均）:
  - システムプロンプト: 1,500トークン
  - RAGコンテキスト（5チャンク）: 5,000トークン
  - 会話履歴（10ターン）: 3,000トークン
  - ユーザー入力: 200トークン
  - 合計入力: 9,700トークン
  - 出力: 800トークン

目標

CFOからの指示: 3ヶ月以内に月額コストを50%削減（200万円 → 100万円以下）

Mission 1: 現在のコスト構造を分析し、コスト増の主因を特定する

要件

当初見積もり（月額50万円）と現在のコスト（月額200万円）を比較し、乖離の原因を分析してください
コスト増の主因をTOP3で特定し、それぞれの影響額を算出してください
コスト構造の問題点を図示してください

解答例

当初見積もり vs 現状の比較

項目	当初見積もり	現状	乖離率
月間クエリ数	30,000	100,000	3.3倍
使用モデル	GPT-4o mini	GPT-4o	単価16.7倍
1クエリあたり入力トークン	2,500	9,700	3.9倍
1クエリあたりコスト	¥5	¥12	2.4倍
LLM月額	¥150,000	¥1,200,000	8倍
月額総額	¥500,000	¥2,000,000	4倍

コスト増の主因 TOP3

主因1: 全クエリにGPT-4oを使用（影響額: +約70万円/月）

当初はGPT-4o miniで見積もっていたが、「品質を高めたい」という現場の要望でGPT-4oに変更。FAQ系（45%）や雑談（10%）にも大モデルを使用しており、過剰スペック。

GPT-4o miniの場合:
  入力: 9,700 × 100,000 = 970Mトークン × $0.15/1M = $145.5
  出力: 800 × 100,000 = 80Mトークン × $0.60/1M = $48
  月額: 約$194（約¥29,000）

GPT-4oの場合:
  入力: 970M × $2.50/1M = $2,425
  出力: 80M × $10.00/1M = $800
  月額: 約$3,225（約¥484,000）

実際にはさらにトークン数が多いため¥1,200,000に到達。
モデル選定だけで大きなコスト差が生じている。

主因2: 過剰なコンテキスト送信（影響額: +約50万円/月）

RAGのチャンクサイズ1,000トークン x top-5 = 5,000トークン（過大）
会話履歴10ターン = 3,000トークン（多すぎる）
システムプロンプト1,500トークン（冗長）
合計9,700トークンのうち、最適化で4,000トークン以下に削減可能

主因3: クエリ数の想定超過（影響額: +約40万円/月）

当初30,000クエリ/月の想定が100,000クエリ/月に増加。利用部門の拡大と1人あたりの利用頻度増加が原因。キャッシュなしのため、同じ質問にも毎回LLMを呼び出している。

コスト構造の問題点

現状のコスト構造:

  ¥2,000,000/月
  ┌─────────────────────────────┐
  │ LLM API ¥1,200K (60%)      │ ← 最大のコストドライバー
  │  ├ 過剰モデル使用           │
  │  ├ 過剰コンテキスト送信     │
  │  └ キャッシュなし           │
  ├─────────────────────────────┤
  │ 人件費 ¥450K (23%)         │
  ├─────────────────────────────┤
  │ インフラ ¥150K (8%)        │
  ├─────────────────────────────┤
  │ その他 ¥200K (10%)         │
  └─────────────────────────────┘

問題: API利用料が全体の60%を占め、
      3つの最適化レバーがすべて未活用。

Mission 2: トークン最適化とキャッシュ戦略による削減計画を策定する

要件

トークン最適化計画（プロンプト圧縮、コンテキスト削減、会話履歴の最適化）
モデルルーティング戦略（クエリパターン別のモデル選定）
キャッシュ戦略（セマンティックキャッシュの導入計画）
各施策の削減効果を定量的に算出し、合計の削減額を示してください
3ヶ月のタイムラインで実行計画を示してください

解答例

施策1: トークン最適化（削減効果: ¥380,000/月）

最適化項目	現状	最適化後	削減トークン
システムプロンプト	1,500	600（英語化+圧縮）	-900
RAGコンテキスト	5,000（1,000×5）	1,500（500×3+リランキング）	-3,500
会話履歴	3,000（10ターン）	1,000（直近3ターン+要約）	-2,000
ユーザー入力	200	200（変更なし）	0
入力合計	9,700	3,300	-6,400（66%削減）

トークン削減によるAPI利用料の変化:
  現状:    入力9,700 × 100K = 970Mトークン → $2,425
  最適化後: 入力3,300 × 100K = 330Mトークン → $825
  入力コスト削減: $1,600/月（約¥240,000）

  出力は変更なし: $800/月

  LLM APIコスト: $2,425 + $800 → $825 + $800
  削減額: $1,600/月（約¥240,000）

  + リランキングAPI費用: ¥20,000/月
  純削減額: 約¥220,000/月

施策2: モデルルーティング（削減効果: ¥450,000/月）

クエリパターン	割合	現状モデル	最適モデル	理由
FAQ系	45%	GPT-4o	GPT-4o mini	定型回答、高い推論力不要
文書検索系	30%	GPT-4o	GPT-4o mini	RAGコンテキストから回答を抽出
分析・要約系	15%	GPT-4o	GPT-4o	複雑な推論が必要
雑談・対象外	10%	GPT-4o	GPT-4o mini	簡易対応で十分

モデルルーティング後のコスト（トークン最適化後の値で計算）:

GPT-4o mini（85%のクエリ = 85,000件）:
  入力: 85,000 × 3,300 = 280.5Mトークン × $0.15/1M = $42
  出力: 85,000 × 800 = 68Mトークン × $0.60/1M = $41
  小計: $83

GPT-4o（15%のクエリ = 15,000件）:
  入力: 15,000 × 3,300 = 49.5Mトークン × $2.50/1M = $124
  出力: 15,000 × 800 = 12Mトークン × $10.00/1M = $120
  小計: $244

ルーター自体のコスト（Haiku相当で全件判定）: 約$10/月

合計: $83 + $244 + $10 = $337/月（約¥51,000）

現状LLM API: ¥1,200,000
トークン最適化 + ルーティング後: 約¥51,000
削減額: 約¥1,149,000/月

ただし段階的導入のため:
  1ヶ月目（トークン最適化のみ）: ¥220,000削減
  2ヶ月目（ルーティング追加）: ¥450,000追加削減

施策3: セマンティックキャッシュ（削減効果: ¥150,000/月）

キャッシュ導入計画:

Phase 1（1ヶ月目）: FAQ系クエリのキャッシュ
  - 上位200の頻出質問をプリウォーム
  - 予想キャッシュヒット率: 35%（FAQ系の45%中）
  - 削減クエリ数: 100,000 × 0.45 × 0.35 = 15,750件

Phase 2（2ヶ月目）: 全クエリへの拡張
  - セマンティックキャッシュを全クエリタイプに拡張
  - 予想キャッシュヒット率: 25%（全体）
  - 削減クエリ数: 100,000 × 0.25 = 25,000件

キャッシュ導入後のコスト削減（ルーティング後の単価で計算）:
  25,000件 × 平均¥6/件 = ¥150,000/月の削減
  + Embedding費用増: ¥15,000/月
  純削減額: 約¥135,000/月

3ヶ月の実行タイムライン

月	施策	累積削減額	月額コスト
1ヶ月目	トークン最適化（プロンプト圧縮、コンテキスト削減、履歴最適化）	¥220,000	¥1,780,000
2ヶ月目	モデルルーティング導入 + FAQキャッシュ	¥870,000	¥1,130,000
3ヶ月目	全面キャッシュ展開 + チューニング	¥1,050,000	¥950,000

目標達成: 月額200万円 → 95万円（52.5%削減）

Mission 3: AI FinOps体制を設計する

要件

予算管理体制（年間予算、月次予算、部門別配分）
チャージバック/ショーバックモデルの設計
月次AIコストレポートのテンプレート
アラートと異常検知の設計
コスト最適化PDCAサイクルの運用ルール

解答例

予算管理体制

項目	設計
年間AI予算	¥12,000,000（月額¥1,000,000目標）
予備費	¥1,200,000（年間予算の10%）
予算管理者	AI基盤チームリード
承認フロー	¥100K以下: チームリード、¥100K-500K: VPoE、¥500K以上: CTO

部門別予算配分:

部門	月額予算	根拠
カスタマーサポート	¥300,000	クエリ数最多、ROI最高
開発部門	¥250,000	コード支援、ドキュメント検索
マーケティング	¥200,000	コンテンツ生成
営業	¥150,000	提案書支援
人事	¥100,000	社内FAQ

チャージバック設計

フェーズ	時期	モデル	配賦方法
Phase 1	1-2ヶ月目	ショーバック	月次レポートでコストを「見せる」のみ
Phase 2	3-4ヶ月目	ソフトチャージバック	予算超過部門に改善要請
Phase 3	5ヶ月目以降	チャージバック	実際に部門予算から控除

配賦ルール:

API利用料: タグ（部門ID）に基づき直接配賦
共通費（インフラ、モニタリング等）: クエリ数比率で按分
AI基盤チーム人件費: 均等按分（5部門で¥90,000ずつ）

月次レポートテンプレート

■ AI Cost Monthly Report

1. サマリー
   月額総コスト | 予算 | 消化率 | 前月比 | 1クエリ単価

2. 部門別コスト
   部門名 | クエリ数 | コスト | 予算 | 消化率 | 前月比

3. 最適化効果
   施策名 | 削減額 | 累積削減額

4. 異常・アラート
   日付 | 内容 | 対応 | ステータス

5. 翌月予測
   予測コスト | リスク要因 | 対策

アラート設計

レベル	条件	通知先	対応
INFO	日次コストが平均の120%超	Slack #ai-cost	確認のみ
WARNING	月次予算消化率75%超（月の75%経過前）	部門長 + AI基盤	利用分析、削減検討
CRITICAL	月次予算消化率90%超	VPoE + 部門長	緊急削減策（レート制限等）
EMERGENCY	日次コストが平均の300%超	PagerDuty → AI基盤	即時調査（バグ・不正利用疑い）

PDCAサイクルの運用ルール

活動	頻度	参加者	成果物
日次コストチェック	毎日（自動）	AI基盤チーム	異常検知アラート
週次コストレビュー	毎週月曜	AI基盤チーム	週次サマリー
月次コストレビュー	毎月1日	VPoE + 部門長 + AI基盤	月次レポート
四半期最適化計画	四半期初	CTO + VPoE + AI基盤	四半期最適化計画

達成度チェック

観点	達成基準
コスト分析	当初見積もりとの乖離原因がTOP3で特定され、影響額が算出されている
トークン最適化	プロンプト圧縮、コンテキスト削減、履歴最適化の具体的な数値が示されている
モデルルーティング	クエリパターン別のモデル選定が根拠とともに設計されている
キャッシュ戦略	セマンティックキャッシュの導入計画と削減効果が算出されている
目標達成	3ヶ月で50%削減の実行タイムラインが具体的に示されている
FinOps体制	予算管理、チャージバック、レポート、アラートが設計されている

推定所要時間: 90分