EXERCISE 90分

ストーリー

田中VPoE
AIコスト構造、トークン最適化、キャッシュ戦略、FinOpsを学んだ。ここからは実践だ。実はうちの全社AIチャットボット、コストが当初見積もりの4倍に膨れ上がっている
あなた
4倍ですか。CFOが怒っているわけですね
田中VPoE
当初は月額50万円の見積もりだった。それが今や200万円だ。CFOから「3ヶ月以内にコストを50%削減せよ」という指示が出ている
あなた
50%削減…100万円以下にするということですね。かなりの挑戦です
田中VPoE
まずコスト増の原因を分析し、次に具体的な削減計画を立て、最後にFinOps体制を設計してほしい。技術だけでなく、組織的な仕組みとして定着させるところまでだ

ミッション概要

項目内容
演習タイトルAIコスト最適化計画の策定
想定時間90分
成果物コスト分析レポート + 削減計画書 + FinOps体制設計書

前提条件

現在のシステム構成

全社AIチャットボット「AI-Assistant」

利用状況:
  - 月間クエリ数: 100,000(当初見積もり: 30,000)
  - アクティブユーザー数: 2,500人(5部門)
  - 稼働: 24時間365日

技術構成:
  - LLM: GPT-4o(全クエリで使用)
  - RAG: ベクトルDB(Pinecone)+ 社内ドキュメント5,000件
  - チャンクサイズ: 1,000トークン(top-5で送信)
  - キャッシュ: なし
  - システムプロンプト: 1,500トークン(日本語で詳細記述)
  - 会話履歴: 直近10ターン分を毎回送信

月額コスト内訳:
  ┌──────────────────────────────────────┐
  │ LLM API利用料(GPT-4o)    ¥1,200,000│
  │ Embedding API               ¥50,000 │
  │ Pinecone(ベクトルDB)       ¥80,000 │
  │ インフラ(AWS)              ¥150,000│
  │ LangSmith(モニタリング)     ¥30,000 │
  │ その他                       ¥40,000 │
  ├──────────────────────────────────────┤
  │ 月額合計                   ¥1,550,000│
  │ + 人件費(運用0.5人月)     ¥450,000 │
  ├──────────────────────────────────────┤
  │ 総額                       ¥2,000,000│
  └──────────────────────────────────────┘

クエリパターン分析:
  - FAQ系(定型質問): 45%
  - 文書検索系(RAG活用): 30%
  - 分析・要約系(複雑な推論): 15%
  - 雑談・対象外: 10%

トークン消費の内訳(1リクエストあたり平均):
  - システムプロンプト: 1,500トークン
  - RAGコンテキスト(5チャンク): 5,000トークン
  - 会話履歴(10ターン): 3,000トークン
  - ユーザー入力: 200トークン
  - 合計入力: 9,700トークン
  - 出力: 800トークン

目標

CFOからの指示: 3ヶ月以内に月額コストを50%削減(200万円 → 100万円以下)


Mission 1: 現在のコスト構造を分析し、コスト増の主因を特定する

要件

  1. 当初見積もり(月額50万円)と現在のコスト(月額200万円)を比較し、乖離の原因を分析してください
  2. コスト増の主因をTOP3で特定し、それぞれの影響額を算出してください
  3. コスト構造の問題点を図示してください
解答例

当初見積もり vs 現状の比較

項目当初見積もり現状乖離率
月間クエリ数30,000100,0003.3倍
使用モデルGPT-4o miniGPT-4o単価16.7倍
1クエリあたり入力トークン2,5009,7003.9倍
1クエリあたりコスト¥5¥122.4倍
LLM月額¥150,000¥1,200,0008倍
月額総額¥500,000¥2,000,0004倍

コスト増の主因 TOP3

主因1: 全クエリにGPT-4oを使用(影響額: +約70万円/月)

当初はGPT-4o miniで見積もっていたが、「品質を高めたい」という現場の要望でGPT-4oに変更。FAQ系(45%)や雑談(10%)にも大モデルを使用しており、過剰スペック。

GPT-4o miniの場合:
  入力: 9,700 × 100,000 = 970Mトークン × $0.15/1M = $145.5
  出力: 800 × 100,000 = 80Mトークン × $0.60/1M = $48
  月額: 約$194(約¥29,000)

GPT-4oの場合:
  入力: 970M × $2.50/1M = $2,425
  出力: 80M × $10.00/1M = $800
  月額: 約$3,225(約¥484,000)

実際にはさらにトークン数が多いため¥1,200,000に到達。
モデル選定だけで大きなコスト差が生じている。

主因2: 過剰なコンテキスト送信(影響額: +約50万円/月)

  • RAGのチャンクサイズ1,000トークン x top-5 = 5,000トークン(過大)
  • 会話履歴10ターン = 3,000トークン(多すぎる)
  • システムプロンプト1,500トークン(冗長)
  • 合計9,700トークンのうち、最適化で4,000トークン以下に削減可能

主因3: クエリ数の想定超過(影響額: +約40万円/月)

当初30,000クエリ/月の想定が100,000クエリ/月に増加。利用部門の拡大と1人あたりの利用頻度増加が原因。キャッシュなしのため、同じ質問にも毎回LLMを呼び出している。

コスト構造の問題点

現状のコスト構造:

  ¥2,000,000/月
  ┌─────────────────────────────┐
  │ LLM API ¥1,200K (60%)      │ ← 最大のコストドライバー
  │  ├ 過剰モデル使用           │
  │  ├ 過剰コンテキスト送信     │
  │  └ キャッシュなし           │
  ├─────────────────────────────┤
  │ 人件費 ¥450K (23%)         │
  ├─────────────────────────────┤
  │ インフラ ¥150K (8%)        │
  ├─────────────────────────────┤
  │ その他 ¥200K (10%)         │
  └─────────────────────────────┘

問題: API利用料が全体の60%を占め、
      3つの最適化レバーがすべて未活用。

Mission 2: トークン最適化とキャッシュ戦略による削減計画を策定する

要件

  1. トークン最適化計画(プロンプト圧縮、コンテキスト削減、会話履歴の最適化)
  2. モデルルーティング戦略(クエリパターン別のモデル選定)
  3. キャッシュ戦略(セマンティックキャッシュの導入計画)
  4. 各施策の削減効果を定量的に算出し、合計の削減額を示してください
  5. 3ヶ月のタイムラインで実行計画を示してください
解答例

施策1: トークン最適化(削減効果: ¥380,000/月)

最適化項目現状最適化後削減トークン
システムプロンプト1,500600(英語化+圧縮)-900
RAGコンテキスト5,000(1,000×5)1,500(500×3+リランキング)-3,500
会話履歴3,000(10ターン)1,000(直近3ターン+要約)-2,000
ユーザー入力200200(変更なし)0
入力合計9,7003,300-6,400(66%削減)
トークン削減によるAPI利用料の変化:
  現状:    入力9,700 × 100K = 970Mトークン → $2,425
  最適化後: 入力3,300 × 100K = 330Mトークン → $825
  入力コスト削減: $1,600/月(約¥240,000)

  出力は変更なし: $800/月

  LLM APIコスト: $2,425 + $800 → $825 + $800
  削減額: $1,600/月(約¥240,000)

  + リランキングAPI費用: ¥20,000/月
  純削減額: 約¥220,000/月

施策2: モデルルーティング(削減効果: ¥450,000/月)

クエリパターン割合現状モデル最適モデル理由
FAQ系45%GPT-4oGPT-4o mini定型回答、高い推論力不要
文書検索系30%GPT-4oGPT-4o miniRAGコンテキストから回答を抽出
分析・要約系15%GPT-4oGPT-4o複雑な推論が必要
雑談・対象外10%GPT-4oGPT-4o mini簡易対応で十分
モデルルーティング後のコスト(トークン最適化後の値で計算):

GPT-4o mini(85%のクエリ = 85,000件):
  入力: 85,000 × 3,300 = 280.5Mトークン × $0.15/1M = $42
  出力: 85,000 × 800 = 68Mトークン × $0.60/1M = $41
  小計: $83

GPT-4o(15%のクエリ = 15,000件):
  入力: 15,000 × 3,300 = 49.5Mトークン × $2.50/1M = $124
  出力: 15,000 × 800 = 12Mトークン × $10.00/1M = $120
  小計: $244

ルーター自体のコスト(Haiku相当で全件判定): 約$10/月

合計: $83 + $244 + $10 = $337/月(約¥51,000)

現状LLM API: ¥1,200,000
トークン最適化 + ルーティング後: 約¥51,000
削減額: 約¥1,149,000/月

ただし段階的導入のため:
  1ヶ月目(トークン最適化のみ): ¥220,000削減
  2ヶ月目(ルーティング追加): ¥450,000追加削減

施策3: セマンティックキャッシュ(削減効果: ¥150,000/月)

キャッシュ導入計画:

Phase 1(1ヶ月目): FAQ系クエリのキャッシュ
  - 上位200の頻出質問をプリウォーム
  - 予想キャッシュヒット率: 35%(FAQ系の45%中)
  - 削減クエリ数: 100,000 × 0.45 × 0.35 = 15,750件

Phase 2(2ヶ月目): 全クエリへの拡張
  - セマンティックキャッシュを全クエリタイプに拡張
  - 予想キャッシュヒット率: 25%(全体)
  - 削減クエリ数: 100,000 × 0.25 = 25,000件

キャッシュ導入後のコスト削減(ルーティング後の単価で計算):
  25,000件 × 平均¥6/件 = ¥150,000/月の削減
  + Embedding費用増: ¥15,000/月
  純削減額: 約¥135,000/月

3ヶ月の実行タイムライン

施策累積削減額月額コスト
1ヶ月目トークン最適化(プロンプト圧縮、コンテキスト削減、履歴最適化)¥220,000¥1,780,000
2ヶ月目モデルルーティング導入 + FAQキャッシュ¥870,000¥1,130,000
3ヶ月目全面キャッシュ展開 + チューニング¥1,050,000¥950,000

目標達成: 月額200万円 → 95万円(52.5%削減)


Mission 3: AI FinOps体制を設計する

要件

  1. 予算管理体制(年間予算、月次予算、部門別配分)
  2. チャージバック/ショーバックモデルの設計
  3. 月次AIコストレポートのテンプレート
  4. アラートと異常検知の設計
  5. コスト最適化PDCAサイクルの運用ルール
解答例

予算管理体制

項目設計
年間AI予算¥12,000,000(月額¥1,000,000目標)
予備費¥1,200,000(年間予算の10%)
予算管理者AI基盤チームリード
承認フロー¥100K以下: チームリード、¥100K-500K: VPoE、¥500K以上: CTO

部門別予算配分:

部門月額予算根拠
カスタマーサポート¥300,000クエリ数最多、ROI最高
開発部門¥250,000コード支援、ドキュメント検索
マーケティング¥200,000コンテンツ生成
営業¥150,000提案書支援
人事¥100,000社内FAQ

チャージバック設計

フェーズ時期モデル配賦方法
Phase 11-2ヶ月目ショーバック月次レポートでコストを「見せる」のみ
Phase 23-4ヶ月目ソフトチャージバック予算超過部門に改善要請
Phase 35ヶ月目以降チャージバック実際に部門予算から控除

配賦ルール:

  • API利用料: タグ(部門ID)に基づき直接配賦
  • 共通費(インフラ、モニタリング等): クエリ数比率で按分
  • AI基盤チーム人件費: 均等按分(5部門で¥90,000ずつ)

月次レポートテンプレート

■ AI Cost Monthly Report

1. サマリー
   月額総コスト | 予算 | 消化率 | 前月比 | 1クエリ単価

2. 部門別コスト
   部門名 | クエリ数 | コスト | 予算 | 消化率 | 前月比

3. 最適化効果
   施策名 | 削減額 | 累積削減額

4. 異常・アラート
   日付 | 内容 | 対応 | ステータス

5. 翌月予測
   予測コスト | リスク要因 | 対策

アラート設計

レベル条件通知先対応
INFO日次コストが平均の120%超Slack #ai-cost確認のみ
WARNING月次予算消化率75%超(月の75%経過前)部門長 + AI基盤利用分析、削減検討
CRITICAL月次予算消化率90%超VPoE + 部門長緊急削減策(レート制限等)
EMERGENCY日次コストが平均の300%超PagerDuty → AI基盤即時調査(バグ・不正利用疑い)

PDCAサイクルの運用ルール

活動頻度参加者成果物
日次コストチェック毎日(自動)AI基盤チーム異常検知アラート
週次コストレビュー毎週月曜AI基盤チーム週次サマリー
月次コストレビュー毎月1日VPoE + 部門長 + AI基盤月次レポート
四半期最適化計画四半期初CTO + VPoE + AI基盤四半期最適化計画

達成度チェック

観点達成基準
コスト分析当初見積もりとの乖離原因がTOP3で特定され、影響額が算出されている
トークン最適化プロンプト圧縮、コンテキスト削減、履歴最適化の具体的な数値が示されている
モデルルーティングクエリパターン別のモデル選定が根拠とともに設計されている
キャッシュ戦略セマンティックキャッシュの導入計画と削減効果が算出されている
目標達成3ヶ月で50%削減の実行タイムラインが具体的に示されている
FinOps体制予算管理、チャージバック、レポート、アラートが設計されている

推定所要時間: 90分