LESSON 30分

ストーリー

田中VPoE
モニタリング基盤ができた。次はコスト最適化だ。NetShop社のAI関連コストが月100万円を超過している。内訳を見ると、7割がAPIコールのトークン費用だ
あなた
どのシステムがコストを消費しているか把握する必要がありますね
田中VPoE
その通り。まずコスト構造を正確に理解し、どこに最適化の余地があるかを特定しよう
あなた
可視化して分析するところから始めます

LLMシステムのコスト構造

コストの内訳

コスト項目割合目安内容
APIトークン費用60-80%入力/出力トークンの従量課金
インフラ費用10-20%サーバー、ストレージ、ネットワーク
開発・運用人件費10-15%プロンプト改善、監視、障害対応
その他5-10%ログストレージ、監視ツール

主要LLMの価格比較

モデル入力(/1Mトークン)出力(/1Mトークン)コンテキスト長
GPT-4o$2.50$10.00128K
GPT-4o-mini$0.15$0.60128K
Claude 3.5 Sonnet$3.00$15.00200K
Claude 3.5 Haiku$0.80$4.00200K
Gemini 1.5 Pro$1.25$5.002M
Gemini 1.5 Flash$0.075$0.301M

NetShop社のコスト分析

from dataclasses import dataclass

@dataclass
class SystemCostAnalysis:
    """AIシステム別コスト分析"""
    system_name: str
    monthly_requests: int
    avg_input_tokens: int
    avg_output_tokens: int
    model: str
    input_price_per_1m: float
    output_price_per_1m: float

    @property
    def monthly_token_cost(self) -> float:
        input_cost = (self.monthly_requests * self.avg_input_tokens / 1_000_000) * self.input_price_per_1m
        output_cost = (self.monthly_requests * self.avg_output_tokens / 1_000_000) * self.output_price_per_1m
        return input_cost + output_cost

# NetShop社の各システム
systems = [
    SystemCostAnalysis("チャットボット", 10000, 2000, 500, "GPT-4o", 2.50, 10.00),
    SystemCostAnalysis("レコメンド", 5000000, 500, 200, "GPT-4o-mini", 0.15, 0.60),
    SystemCostAnalysis("商品説明生成", 2000, 3000, 1000, "GPT-4o", 2.50, 10.00),
    SystemCostAnalysis("請求書処理", 3000, 5000, 800, "Claude 3.5 Sonnet", 3.00, 15.00),
    SystemCostAnalysis("通話記録", 4000, 8000, 2000, "GPT-4o", 2.50, 10.00),
    SystemCostAnalysis("画像チェック", 5000, 1000, 300, "GPT-4o-mini", 0.15, 0.60),
]

for s in systems:
    print(f"{s.system_name}: ${s.monthly_token_cost:.2f}/月")

コスト可視化

コストダッシュボードの設計

パネル内容更新頻度
月次コスト推移過去12ヶ月のコストトレンド日次
システム別内訳各AIシステムのコスト比率日次
時間帯別コスト1日のコスト分布(ピーク時間の特定)時間
トークン効率リクエストあたりのトークン数推移日次
予算消化率月間予算に対する消化率リアルタイム
コスト予測現在のペースでの月末予測日次

コスト異常の検知

異常パターン検知方法対応
急激なコスト増加前時間比200%超原因調査(リクエスト急増 or トークン肥大)
予算超過ペース月中で80%消化利用量制限の検討
非効率なトークン利用平均トークン数の増加トレンドプロンプト最適化
不要なリクエスト同一内容の重複リクエストキャッシュ導入

コスト最適化の機会特定

最適化の4つの軸

軸1: モデル選択の最適化
├── タスク複雑度に応じたモデルの使い分け
└── 高性能モデルが不要な箇所を特定

軸2: トークン使用量の削減
├── プロンプトの圧縮
├── 不要なコンテキストの削除
└── 出力長の制限

軸3: キャッシュの活用
├── 同一/類似リクエストのキャッシュ
└── RAG結果のキャッシュ

軸4: アーキテクチャの最適化
├── バッチ処理の活用
├── 非同期処理によるスループット向上
└── リクエストルーティングの最適化

まとめ

要素ポイント
コスト構造APIトークン費用が60-80%を占める
可視化システム別・時間帯別のコスト可視化が基本
異常検知コスト急増や予算超過ペースを自動検知
最適化の軸モデル選択、トークン削減、キャッシュ、アーキテクチャの4軸

チェックリスト

  • LLMシステムのコスト構造を理解した
  • 主要モデルの価格体系を把握した
  • コスト可視化ダッシュボードの主要パネルを設計できる
  • コスト最適化の4つの軸を理解した

次のステップへ

次はキャッシング戦略を学び、コスト削減の具体的手法を習得します。


推定読了時間: 30分