ストーリー
田
田中VPoE
AIコスト構造、トークン最適化、キャッシュ戦略、FinOpsを学んだ。ここからは実践だ。実はうちの全社AIチャットボット、コストが当初見積もりの4倍に膨れ上がっている
田
田中VPoE
当初は月額50万円の見積もりだった。それが今や200万円だ。CFOから「3ヶ月以内にコストを50%削減せよ」という指示が出ている
あなた
50%削減…100万円以下にするということですね。かなりの挑戦です
あ
田
田中VPoE
まずコスト増の原因を分析し、次に具体的な削減計画を立て、最後にFinOps体制を設計してほしい。技術だけでなく、組織的な仕組みとして定着させるところまでだ
ミッション概要
| 項目 | 内容 |
|---|
| 演習タイトル | AIコスト最適化計画の策定 |
| 想定時間 | 90分 |
| 成果物 | コスト分析レポート + 削減計画書 + FinOps体制設計書 |
前提条件
現在のシステム構成
全社AIチャットボット「AI-Assistant」
利用状況:
- 月間クエリ数: 100,000(当初見積もり: 30,000)
- アクティブユーザー数: 2,500人(5部門)
- 稼働: 24時間365日
技術構成:
- LLM: GPT-4o(全クエリで使用)
- RAG: ベクトルDB(Pinecone)+ 社内ドキュメント5,000件
- チャンクサイズ: 1,000トークン(top-5で送信)
- キャッシュ: なし
- システムプロンプト: 1,500トークン(日本語で詳細記述)
- 会話履歴: 直近10ターン分を毎回送信
月額コスト内訳:
┌──────────────────────────────────────┐
│ LLM API利用料(GPT-4o) ¥1,200,000│
│ Embedding API ¥50,000 │
│ Pinecone(ベクトルDB) ¥80,000 │
│ インフラ(AWS) ¥150,000│
│ LangSmith(モニタリング) ¥30,000 │
│ その他 ¥40,000 │
├──────────────────────────────────────┤
│ 月額合計 ¥1,550,000│
│ + 人件費(運用0.5人月) ¥450,000 │
├──────────────────────────────────────┤
│ 総額 ¥2,000,000│
└──────────────────────────────────────┘
クエリパターン分析:
- FAQ系(定型質問): 45%
- 文書検索系(RAG活用): 30%
- 分析・要約系(複雑な推論): 15%
- 雑談・対象外: 10%
トークン消費の内訳(1リクエストあたり平均):
- システムプロンプト: 1,500トークン
- RAGコンテキスト(5チャンク): 5,000トークン
- 会話履歴(10ターン): 3,000トークン
- ユーザー入力: 200トークン
- 合計入力: 9,700トークン
- 出力: 800トークン
目標
CFOからの指示: 3ヶ月以内に月額コストを50%削減(200万円 → 100万円以下)
Mission 1: 現在のコスト構造を分析し、コスト増の主因を特定する
要件
- 当初見積もり(月額50万円)と現在のコスト(月額200万円)を比較し、乖離の原因を分析してください
- コスト増の主因をTOP3で特定し、それぞれの影響額を算出してください
- コスト構造の問題点を図示してください
解答例
当初見積もり vs 現状の比較
| 項目 | 当初見積もり | 現状 | 乖離率 |
|---|
| 月間クエリ数 | 30,000 | 100,000 | 3.3倍 |
| 使用モデル | GPT-4o mini | GPT-4o | 単価16.7倍 |
| 1クエリあたり入力トークン | 2,500 | 9,700 | 3.9倍 |
| 1クエリあたりコスト | ¥5 | ¥12 | 2.4倍 |
| LLM月額 | ¥150,000 | ¥1,200,000 | 8倍 |
| 月額総額 | ¥500,000 | ¥2,000,000 | 4倍 |
コスト増の主因 TOP3
主因1: 全クエリにGPT-4oを使用(影響額: +約70万円/月)
当初はGPT-4o miniで見積もっていたが、「品質を高めたい」という現場の要望でGPT-4oに変更。FAQ系(45%)や雑談(10%)にも大モデルを使用しており、過剰スペック。
GPT-4o miniの場合:
入力: 9,700 × 100,000 = 970Mトークン × $0.15/1M = $145.5
出力: 800 × 100,000 = 80Mトークン × $0.60/1M = $48
月額: 約$194(約¥29,000)
GPT-4oの場合:
入力: 970M × $2.50/1M = $2,425
出力: 80M × $10.00/1M = $800
月額: 約$3,225(約¥484,000)
実際にはさらにトークン数が多いため¥1,200,000に到達。
モデル選定だけで大きなコスト差が生じている。
主因2: 過剰なコンテキスト送信(影響額: +約50万円/月)
- RAGのチャンクサイズ1,000トークン x top-5 = 5,000トークン(過大)
- 会話履歴10ターン = 3,000トークン(多すぎる)
- システムプロンプト1,500トークン(冗長)
- 合計9,700トークンのうち、最適化で4,000トークン以下に削減可能
主因3: クエリ数の想定超過(影響額: +約40万円/月)
当初30,000クエリ/月の想定が100,000クエリ/月に増加。利用部門の拡大と1人あたりの利用頻度増加が原因。キャッシュなしのため、同じ質問にも毎回LLMを呼び出している。
コスト構造の問題点
現状のコスト構造:
¥2,000,000/月
┌─────────────────────────────┐
│ LLM API ¥1,200K (60%) │ ← 最大のコストドライバー
│ ├ 過剰モデル使用 │
│ ├ 過剰コンテキスト送信 │
│ └ キャッシュなし │
├─────────────────────────────┤
│ 人件費 ¥450K (23%) │
├─────────────────────────────┤
│ インフラ ¥150K (8%) │
├─────────────────────────────┤
│ その他 ¥200K (10%) │
└─────────────────────────────┘
問題: API利用料が全体の60%を占め、
3つの最適化レバーがすべて未活用。
Mission 2: トークン最適化とキャッシュ戦略による削減計画を策定する
要件
- トークン最適化計画(プロンプト圧縮、コンテキスト削減、会話履歴の最適化)
- モデルルーティング戦略(クエリパターン別のモデル選定)
- キャッシュ戦略(セマンティックキャッシュの導入計画)
- 各施策の削減効果を定量的に算出し、合計の削減額を示してください
- 3ヶ月のタイムラインで実行計画を示してください
解答例
施策1: トークン最適化(削減効果: ¥380,000/月)
| 最適化項目 | 現状 | 最適化後 | 削減トークン |
|---|
| システムプロンプト | 1,500 | 600(英語化+圧縮) | -900 |
| RAGコンテキスト | 5,000(1,000×5) | 1,500(500×3+リランキング) | -3,500 |
| 会話履歴 | 3,000(10ターン) | 1,000(直近3ターン+要約) | -2,000 |
| ユーザー入力 | 200 | 200(変更なし) | 0 |
| 入力合計 | 9,700 | 3,300 | -6,400(66%削減) |
トークン削減によるAPI利用料の変化:
現状: 入力9,700 × 100K = 970Mトークン → $2,425
最適化後: 入力3,300 × 100K = 330Mトークン → $825
入力コスト削減: $1,600/月(約¥240,000)
出力は変更なし: $800/月
LLM APIコスト: $2,425 + $800 → $825 + $800
削減額: $1,600/月(約¥240,000)
+ リランキングAPI費用: ¥20,000/月
純削減額: 約¥220,000/月
施策2: モデルルーティング(削減効果: ¥450,000/月)
| クエリパターン | 割合 | 現状モデル | 最適モデル | 理由 |
|---|
| FAQ系 | 45% | GPT-4o | GPT-4o mini | 定型回答、高い推論力不要 |
| 文書検索系 | 30% | GPT-4o | GPT-4o mini | RAGコンテキストから回答を抽出 |
| 分析・要約系 | 15% | GPT-4o | GPT-4o | 複雑な推論が必要 |
| 雑談・対象外 | 10% | GPT-4o | GPT-4o mini | 簡易対応で十分 |
モデルルーティング後のコスト(トークン最適化後の値で計算):
GPT-4o mini(85%のクエリ = 85,000件):
入力: 85,000 × 3,300 = 280.5Mトークン × $0.15/1M = $42
出力: 85,000 × 800 = 68Mトークン × $0.60/1M = $41
小計: $83
GPT-4o(15%のクエリ = 15,000件):
入力: 15,000 × 3,300 = 49.5Mトークン × $2.50/1M = $124
出力: 15,000 × 800 = 12Mトークン × $10.00/1M = $120
小計: $244
ルーター自体のコスト(Haiku相当で全件判定): 約$10/月
合計: $83 + $244 + $10 = $337/月(約¥51,000)
現状LLM API: ¥1,200,000
トークン最適化 + ルーティング後: 約¥51,000
削減額: 約¥1,149,000/月
ただし段階的導入のため:
1ヶ月目(トークン最適化のみ): ¥220,000削減
2ヶ月目(ルーティング追加): ¥450,000追加削減
施策3: セマンティックキャッシュ(削減効果: ¥150,000/月)
キャッシュ導入計画:
Phase 1(1ヶ月目): FAQ系クエリのキャッシュ
- 上位200の頻出質問をプリウォーム
- 予想キャッシュヒット率: 35%(FAQ系の45%中)
- 削減クエリ数: 100,000 × 0.45 × 0.35 = 15,750件
Phase 2(2ヶ月目): 全クエリへの拡張
- セマンティックキャッシュを全クエリタイプに拡張
- 予想キャッシュヒット率: 25%(全体)
- 削減クエリ数: 100,000 × 0.25 = 25,000件
キャッシュ導入後のコスト削減(ルーティング後の単価で計算):
25,000件 × 平均¥6/件 = ¥150,000/月の削減
+ Embedding費用増: ¥15,000/月
純削減額: 約¥135,000/月
3ヶ月の実行タイムライン
| 月 | 施策 | 累積削減額 | 月額コスト |
|---|
| 1ヶ月目 | トークン最適化(プロンプト圧縮、コンテキスト削減、履歴最適化) | ¥220,000 | ¥1,780,000 |
| 2ヶ月目 | モデルルーティング導入 + FAQキャッシュ | ¥870,000 | ¥1,130,000 |
| 3ヶ月目 | 全面キャッシュ展開 + チューニング | ¥1,050,000 | ¥950,000 |
目標達成: 月額200万円 → 95万円(52.5%削減)
Mission 3: AI FinOps体制を設計する
要件
- 予算管理体制(年間予算、月次予算、部門別配分)
- チャージバック/ショーバックモデルの設計
- 月次AIコストレポートのテンプレート
- アラートと異常検知の設計
- コスト最適化PDCAサイクルの運用ルール
解答例
予算管理体制
| 項目 | 設計 |
|---|
| 年間AI予算 | ¥12,000,000(月額¥1,000,000目標) |
| 予備費 | ¥1,200,000(年間予算の10%) |
| 予算管理者 | AI基盤チームリード |
| 承認フロー | ¥100K以下: チームリード、¥100K-500K: VPoE、¥500K以上: CTO |
部門別予算配分:
| 部門 | 月額予算 | 根拠 |
|---|
| カスタマーサポート | ¥300,000 | クエリ数最多、ROI最高 |
| 開発部門 | ¥250,000 | コード支援、ドキュメント検索 |
| マーケティング | ¥200,000 | コンテンツ生成 |
| 営業 | ¥150,000 | 提案書支援 |
| 人事 | ¥100,000 | 社内FAQ |
チャージバック設計
| フェーズ | 時期 | モデル | 配賦方法 |
|---|
| Phase 1 | 1-2ヶ月目 | ショーバック | 月次レポートでコストを「見せる」のみ |
| Phase 2 | 3-4ヶ月目 | ソフトチャージバック | 予算超過部門に改善要請 |
| Phase 3 | 5ヶ月目以降 | チャージバック | 実際に部門予算から控除 |
配賦ルール:
- API利用料: タグ(部門ID)に基づき直接配賦
- 共通費(インフラ、モニタリング等): クエリ数比率で按分
- AI基盤チーム人件費: 均等按分(5部門で¥90,000ずつ)
月次レポートテンプレート
■ AI Cost Monthly Report
1. サマリー
月額総コスト | 予算 | 消化率 | 前月比 | 1クエリ単価
2. 部門別コスト
部門名 | クエリ数 | コスト | 予算 | 消化率 | 前月比
3. 最適化効果
施策名 | 削減額 | 累積削減額
4. 異常・アラート
日付 | 内容 | 対応 | ステータス
5. 翌月予測
予測コスト | リスク要因 | 対策
アラート設計
| レベル | 条件 | 通知先 | 対応 |
|---|
| INFO | 日次コストが平均の120%超 | Slack #ai-cost | 確認のみ |
| WARNING | 月次予算消化率75%超(月の75%経過前) | 部門長 + AI基盤 | 利用分析、削減検討 |
| CRITICAL | 月次予算消化率90%超 | VPoE + 部門長 | 緊急削減策(レート制限等) |
| EMERGENCY | 日次コストが平均の300%超 | PagerDuty → AI基盤 | 即時調査(バグ・不正利用疑い) |
PDCAサイクルの運用ルール
| 活動 | 頻度 | 参加者 | 成果物 |
|---|
| 日次コストチェック | 毎日(自動) | AI基盤チーム | 異常検知アラート |
| 週次コストレビュー | 毎週月曜 | AI基盤チーム | 週次サマリー |
| 月次コストレビュー | 毎月1日 | VPoE + 部門長 + AI基盤 | 月次レポート |
| 四半期最適化計画 | 四半期初 | CTO + VPoE + AI基盤 | 四半期最適化計画 |
達成度チェック
| 観点 | 達成基準 |
|---|
| コスト分析 | 当初見積もりとの乖離原因がTOP3で特定され、影響額が算出されている |
| トークン最適化 | プロンプト圧縮、コンテキスト削減、履歴最適化の具体的な数値が示されている |
| モデルルーティング | クエリパターン別のモデル選定が根拠とともに設計されている |
| キャッシュ戦略 | セマンティックキャッシュの導入計画と削減効果が算出されている |
| 目標達成 | 3ヶ月で50%削減の実行タイムラインが具体的に示されている |
| FinOps体制 | 予算管理、チャージバック、レポート、アラートが設計されている |
推定所要時間: 90分