コスト構造の理解 - L0 カリキュラム

ストーリー

田

田中VPoE

モニタリング基盤ができた。次はコスト最適化だ。NetShop社のAI関連コストが月100万円を超過している。内訳を見ると、7割がAPIコールのトークン費用だ

あなた

どのシステムがコストを消費しているか把握する必要がありますね

あ

田

田中VPoE

その通り。まずコスト構造を正確に理解し、どこに最適化の余地があるかを特定しよう

あなた

可視化して分析するところから始めます

あ

LLMシステムのコスト構造

コストの内訳

コスト項目	割合目安	内容
APIトークン費用	60-80%	入力/出力トークンの従量課金
インフラ費用	10-20%	サーバー、ストレージ、ネットワーク
開発・運用人件費	10-15%	プロンプト改善、監視、障害対応
その他	5-10%	ログストレージ、監視ツール

主要LLMの価格比較

モデル	入力（/1Mトークン）	出力（/1Mトークン）	コンテキスト長
GPT-4o	$2.50	$10.00	128K
GPT-4o-mini	$0.15	$0.60	128K
Claude 3.5 Sonnet	$3.00	$15.00	200K
Claude 3.5 Haiku	$0.80	$4.00	200K
Gemini 1.5 Pro	$1.25	$5.00	2M
Gemini 1.5 Flash	$0.075	$0.30	1M

NetShop社のコスト分析

from dataclasses import dataclass

@dataclass
class SystemCostAnalysis:
    """AIシステム別コスト分析"""
    system_name: str
    monthly_requests: int
    avg_input_tokens: int
    avg_output_tokens: int
    model: str
    input_price_per_1m: float
    output_price_per_1m: float

    @property
    def monthly_token_cost(self) -> float:
        input_cost = (self.monthly_requests * self.avg_input_tokens / 1_000_000) * self.input_price_per_1m
        output_cost = (self.monthly_requests * self.avg_output_tokens / 1_000_000) * self.output_price_per_1m
        return input_cost + output_cost

# NetShop社の各システム
systems = [
    SystemCostAnalysis("チャットボット", 10000, 2000, 500, "GPT-4o", 2.50, 10.00),
    SystemCostAnalysis("レコメンド", 5000000, 500, 200, "GPT-4o-mini", 0.15, 0.60),
    SystemCostAnalysis("商品説明生成", 2000, 3000, 1000, "GPT-4o", 2.50, 10.00),
    SystemCostAnalysis("請求書処理", 3000, 5000, 800, "Claude 3.5 Sonnet", 3.00, 15.00),
    SystemCostAnalysis("通話記録", 4000, 8000, 2000, "GPT-4o", 2.50, 10.00),
    SystemCostAnalysis("画像チェック", 5000, 1000, 300, "GPT-4o-mini", 0.15, 0.60),
]

for s in systems:
    print(f"{s.system_name}: ${s.monthly_token_cost:.2f}/月")

コスト可視化

コストダッシュボードの設計

パネル	内容	更新頻度
月次コスト推移	過去12ヶ月のコストトレンド	日次
システム別内訳	各AIシステムのコスト比率	日次
時間帯別コスト	1日のコスト分布（ピーク時間の特定）	時間
トークン効率	リクエストあたりのトークン数推移	日次
予算消化率	月間予算に対する消化率	リアルタイム
コスト予測	現在のペースでの月末予測	日次

コスト異常の検知

異常パターン	検知方法	対応
急激なコスト増加	前時間比200%超	原因調査（リクエスト急増 or トークン肥大）
予算超過ペース	月中で80%消化	利用量制限の検討
非効率なトークン利用	平均トークン数の増加トレンド	プロンプト最適化
不要なリクエスト	同一内容の重複リクエスト	キャッシュ導入

コスト最適化の機会特定

最適化の4つの軸

軸1: モデル選択の最適化
├── タスク複雑度に応じたモデルの使い分け
└── 高性能モデルが不要な箇所を特定

軸2: トークン使用量の削減
├── プロンプトの圧縮
├── 不要なコンテキストの削除
└── 出力長の制限

軸3: キャッシュの活用
├── 同一/類似リクエストのキャッシュ
└── RAG結果のキャッシュ

軸4: アーキテクチャの最適化
├── バッチ処理の活用
├── 非同期処理によるスループット向上
└── リクエストルーティングの最適化

まとめ

要素	ポイント
コスト構造	APIトークン費用が60-80%を占める
可視化	システム別・時間帯別のコスト可視化が基本
異常検知	コスト急増や予算超過ペースを自動検知
最適化の軸	モデル選択、トークン削減、キャッシュ、アーキテクチャの4軸

チェックリスト

LLMシステムのコスト構造を理解した
主要モデルの価格体系を把握した
コスト可視化ダッシュボードの主要パネルを設計できる
コスト最適化の4つの軸を理解した

次のステップへ

次はキャッシング戦略を学び、コスト削減の具体的手法を習得します。

推定読了時間: 30分