LESSON 30分

ストーリー

田中VPoE
セキュリティとガバナンスを固めた。ここからはコストの話だ。先週CFOから「このAI、月にいくらかかるんだ?」と聞かれたが、すぐに答えられなかった。コスト管理なしに全社展開はありえない
あなた
確かに、API利用料は見えていますが、全体のコスト構造は把握できていません
田中VPoE
AIシステムのコストは氷山のようなものだ。API利用料は水面上に見える部分にすぎない。水面下にはデータ準備、評価、運用監視、人件費…大量の隠れたコストがある
あなた
CFOに「月額いくら」と即答できる状態にしないといけないですね
田中VPoE
その通りだ。まずは全体のコスト構造を理解することから始めよう。それがコスト最適化の第一歩だ

AIシステムの主要コスト要素

コスト構造の全体像

エンタープライズAIシステムのコストは、大きく5つのカテゴリに分類されます。

カテゴリ内容全体に占める割合(目安)
推論コストLLM APIの呼び出し、自社モデルの推論実行30-40%
学習・ファインチューニングコストモデルの追加学習、RAG用のEmbedding生成10-15%
インフラコストサーバー、GPU、ネットワーク、コンテナ基盤20-25%
データストレージベクトルDB、ドキュメントストレージ、ログ保管5-10%
人件費AI/MLエンジニア、データエンジニア、運用チーム20-30%
AIシステムの総コスト(TCO):

   表面コスト(見えやすい)
   ┌──────────────────────────┐
   │  LLM API利用料           │  ← CFOが把握している部分
   │  クラウドインフラ費用     │
   └──────────────────────────┘
   ─────── 水面 ───────────────
   ┌──────────────────────────┐
   │  データ準備・前処理       │
   │  Embedding生成            │
   │  ベクトルDB運用           │
   │  評価・テスト             │  ← 見落とされがちな部分
   │  モニタリング・ログ       │
   │  セキュリティ対策         │
   │  人件費(開発・運用)     │
   │  教育・トレーニング       │
   └──────────────────────────┘
   隠れたコスト(見えにくい)

LLM API利用料の構造

トークンベースの課金モデル

LLM APIはトークン数に基づいて課金されます。トークンは言語処理の最小単位で、日本語の場合1文字が1〜3トークンに相当します。

要素説明
入力トークンプロンプト(システムプロンプト + ユーザー入力 + RAGコンテキスト)
出力トークンモデルが生成するレスポンス
課金単位通常100万トークンあたりの単価
入力 vs 出力出力トークンは入力トークンの2〜5倍の単価が一般的

モデル別コスト比較表(2025年時点の目安)

モデル入力単価(/1Mトークン)出力単価(/1Mトークン)特徴
GPT-4o$2.50$10.00高性能、マルチモーダル
GPT-4o mini$0.15$0.60コスト効率が高い
Claude 3.5 Sonnet$3.00$15.00長文コンテキスト対応
Claude 3.5 Haiku$0.80$4.00高速・低コスト
Gemini 1.5 Pro$1.25$5.00長コンテキストウィンドウ
Gemini 1.5 Flash$0.075$0.30超低コスト

コスト計算の実例

全社AIチャットボット(月間10万クエリ)を想定します。

前提条件:
  - 月間クエリ数: 100,000
  - 平均入力トークン: 2,000(システムプロンプト800 + RAGコンテキスト1,000 + ユーザー入力200)
  - 平均出力トークン: 500

月間トークン消費量:
  入力: 100,000 × 2,000 = 200,000,000 (200M) トークン
  出力: 100,000 × 500  =  50,000,000 (50M) トークン

GPT-4oの場合:
  入力コスト: 200 × $2.50  = $500
  出力コスト:  50 × $10.00 = $500
  月額合計: $1,000(約15万円)

GPT-4o miniの場合:
  入力コスト: 200 × $0.15  = $30
  出力コスト:  50 × $0.60  = $30
  月額合計: $60(約9,000円)

差額: 約16.7倍のコスト差

モデル選定一つで月額コストが16倍変わる。タスクに見合ったモデルを選ぶことが最初の最適化だ。 — 田中VPoE


オンプレミス vs クラウド vs ハイブリッド

3つの運用形態の比較

観点オンプレミス(自社GPU)クラウドAPIハイブリッド
初期投資極めて高い(GPU 1台300〜500万円)ほぼゼロ中程度
月額運用費電気代・保守(固定費)API従量課金(変動費)固定費 + 変動費
スケーラビリティ物理制約あり即座にスケール可能柔軟に対応
データプライバシー完全制御ベンダー依存機密データはオンプレ
最新モデル対応自社で対応が必要ベンダーが自動更新用途に応じて選択
運用負荷高い(専任チーム必要)低い中程度

コスト比較シミュレーション(月間10万クエリの場合)

項目オンプレミスクラウドAPI
GPU サーバー(償却3年)約14万円/月-
電気代・冷却約5万円/月-
API利用料-約15万円/月
インフラ管理人件費約30万円/月約5万円/月
月額合計約49万円約20万円

月間100万クエリを超える規模になると、オンプレミスのコスト優位性が出始める。規模が小さいうちはクラウドAPIが合理的だ。


隠れたコスト

データ準備コスト

作業内容工数目安
データ収集社内ドキュメントの収集・整理2-4人週
データクレンジング不要データの除去、フォーマット統一1-3人週
チャンキングRAG用のドキュメント分割・最適化1-2人週
Embedding生成ベクトル化の実行・検証0.5-1人週
メタデータ付与分類、タグ付け、権限情報の付与1-2人週

評価コスト

評価種別内容頻度
精度評価回答品質のベンチマーク測定モデル更新時
A/Bテストプロンプト変更の効果検証月1-2回
ユーザーフィードバック分析実ユーザーの評価データ分析週次
レッドチーム評価セキュリティ・安全性テスト四半期

運用監視コスト

項目ツール例月額目安
LLMモニタリングLangSmith, Langfuse3-10万円
インフラ監視Datadog, New Relic5-15万円
ログ保管CloudWatch, S32-5万円
アラートPagerDuty, OpsGenie1-3万円

AIコスト可視化ダッシュボードの設計

ダッシュボードの構成

経営層からエンジニアまで、役割に応じた粒度で情報を提供します。

レイヤー対象者表示内容更新頻度
エグゼクティブCFO/CTO月額総コスト、ROI、前月比較月次
マネジメント部門長部門別コスト、プロジェクト別コスト週次
エンジニア開発チームAPI別コスト、トークン消費量、エラー率リアルタイム

エグゼクティブダッシュボードの設計例

┌─────────────────────────────────────────────────┐
│  AI Monthly Cost Report - 2025年12月            │
├──────────┬──────────┬──────────┬────────────────┤
│ 月額総額  │ 前月比   │ 予算消化率│ ROI            │
│ ¥1,850K  │ +12%    │ 78%     │ 320%           │
├──────────┴──────────┴──────────┴────────────────┤
│                                                 │
│  コスト内訳(円グラフ)                            │
│  ┌────────────────┐                              │
│  │ API利用料 35%   │                              │
│  │ インフラ  25%   │                              │
│  │ 人件費   22%    │                              │
│  │ データ   10%    │                              │
│  │ その他    8%    │                              │
│  └────────────────┘                              │
│                                                 │
│  月次推移(棒グラフ - 過去12ヶ月)                  │
│  ████ ████ ████ ████ ████ ████                   │
│  7月  8月  9月  10月  11月  12月                   │
│                                                 │
│  部門別コスト TOP5                                │
│  1. カスタマーサポート  ¥520K (28%)               │
│  2. 開発部門           ¥410K (22%)               │
│  3. マーケティング      ¥350K (19%)               │
│  4. 営業               ¥280K (15%)               │
│  5. 人事               ¥180K (10%)               │
│                                                 │
│  アラート: 開発部門コストが前月比+35%              │
└─────────────────────────────────────────────────┘

トラッキングすべきKPI

KPI計算式目標値(例)
1クエリあたりコスト月額APIコスト / 月間クエリ数¥10以下
ユーザーあたりコスト月額総コスト / アクティブユーザー数¥500以下
ROI(AI導入による削減コスト - AI運用コスト) / AI運用コスト200%以上
コスト予算消化率実績コスト / 予算80-100%
キャッシュヒット率キャッシュ応答数 / 総クエリ数30%以上

まとめ

ポイント内容
コストの全体像API利用料だけでなく、データ準備、評価、運用監視、人件費を含めたTCOで把握する
モデル選定の影響モデル選択一つで月額コストが10倍以上変わる
運用形態規模に応じてクラウドAPI、オンプレミス、ハイブリッドを使い分ける
可視化役割に応じた粒度のダッシュボードでコストを透明化する

チェックリスト

  • AIシステムの5つの主要コストカテゴリを理解した
  • LLM API利用料のトークンベース課金の仕組みを理解した
  • オンプレミスとクラウドAPIのコスト比較ができる
  • 隠れたコスト(データ準備、評価、運用監視)を把握した
  • AIコスト可視化ダッシュボードの設計方針を理解した

次のステップへ

次は「トークン最適化とモデル選定」です。コスト構造の最大要素であるAPI利用料を、プロンプトエンジニアリングとモデル選定戦略によって最適化する方法を学びましょう。


推定読了時間: 30分