Token最適化とFinOps - L0 カリキュラム

ストーリー

田

田中VPoE

モデル選択とキャッシュの最適化を学んだ。最後はToken使用量の最適化と、組織的なコスト管理（FinOps）だ

あなた

FinOpsはクラウドコスト管理のプラクティスですよね。AIにも適用するんですか？

あ

田

田中VPoE

その通り。AIのAPIコストはクラウドコストと同様に「使っただけ課金」だ。可視化、最適化、組織的な管理の3つの柱でコストをコントロールする

あなた

技術的な最適化と組織的な管理を組み合わせるんですね

あ

Token使用量の最適化

プロンプトエンジニアリングによる最適化

class PromptOptimizer:
    """プロンプトのトークン効率を最適化"""

    @staticmethod
    def compress_system_prompt(original: str) -> str:
        """システムプロンプトの圧縮"""
        # 冗長な記述を簡潔に
        optimizations = {
            "あなたはNetShop社のカスタマーサポート担当AIアシスタントです。お客様の質問に対して丁寧にお答えください。":
            "NetShop CSアシスタント。丁寧に回答。",

            "以下のルールに従って回答してください。まず、質問の内容を理解し、次に適切な回答を生成してください。":
            "以下のルールで回答:",
        }
        compressed = original
        for old, new in optimizations.items():
            compressed = compressed.replace(old, new)
        return compressed

    @staticmethod
    def optimize_few_shot(examples: list[dict], max_examples: int = 2) -> list[dict]:
        """Few-shot例の最適化"""
        # 最も代表的な例のみを選択
        if len(examples) > max_examples:
            return examples[:max_examples]
        return examples

    @staticmethod
    def truncate_context(context: str, max_tokens: int = 2000) -> str:
        """コンテキストのトランケーション"""
        # 簡易的なトークン数推定（日本語は文字数×1.5程度）
        estimated_tokens = len(context) * 1.5
        if estimated_tokens > max_tokens:
            char_limit = int(max_tokens / 1.5)
            return context[:char_limit] + "\n...(省略)"
        return context

出力トークンの制御

テクニック	方法	効果
max_tokens指定	API パラメータで出力上限を設定	過剰な出力を防止
JSON出力指定	response_format: json_object	構造化された簡潔な出力
箇条書き指示	「3点以内で簡潔に」	冗長な説明を抑制
Stop sequence	特定文字列で生成を停止	不要な続きの生成を防止

AI FinOpsの3つの柱

柱1: 可視化（Inform）

可視化項目	内容	ツール
コスト配賦	部門別・プロジェクト別のコスト割当	タグベースの配賦
単位コスト	1リクエスト/1ユーザー/1トランザクションあたりのAIコスト	カスタムメトリクス
トレンド分析	コストの増減トレンドと要因分析	ダッシュボード
予算管理	予算消化率と超過予測	アラート

柱2: 最適化（Optimize）

最適化施策	削減効果	実施難易度
セマンティックキャッシュ導入	20-40%	中
モデルルーティング	50-70%	中
プロンプト圧縮	10-30%	低
バッチ処理化	50%（該当処理のみ）	低
RAGチャンク最適化	20-40%	中
不要リクエストの削減	10-20%	低

柱3: 運営（Operate）

プラクティス	内容
コスト予算の設定	部門/プロジェクトごとに月次予算を設定
コストレビュー	月次で利用状況とコストをレビュー
アラート	予算超過の自動アラート
最適化提案	月次でコスト削減の機会を提案
チャージバック	利用量に応じた部門間のコスト配賦

コスト最適化のROI計算

最適化施策のROI試算テンプレート

@dataclass
class OptimizationROI:
    """最適化施策のROI試算"""
    name: str
    current_monthly_cost: float
    expected_reduction_rate: float
    implementation_cost: float
    monthly_operation_cost: float

    @property
    def monthly_savings(self) -> float:
        return self.current_monthly_cost * self.expected_reduction_rate

    @property
    def net_monthly_savings(self) -> float:
        return self.monthly_savings - self.monthly_operation_cost

    @property
    def payback_months(self) -> float:
        if self.net_monthly_savings <= 0:
            return float('inf')
        return self.implementation_cost / self.net_monthly_savings

# NetShop社の試算
optimizations = [
    OptimizationROI("セマンティックキャッシュ", 100_0000, 0.30, 50_0000, 5_0000),
    OptimizationROI("モデルルーティング", 100_0000, 0.50, 30_0000, 3_0000),
    OptimizationROI("プロンプト圧縮", 100_0000, 0.15, 10_0000, 1_0000),
]

for opt in optimizations:
    print(f"{opt.name}: 月間削減{opt.net_monthly_savings/10000:.0f}万円, "
          f"回収{opt.payback_months:.1f}ヶ月")

まとめ

要素	ポイント
Token最適化	プロンプト圧縮、出力制御、コンテキスト管理
FinOps	可視化→最適化→運営の3つの柱
コスト配賦	部門/プロジェクト別のコスト割当
ROI	施策ごとの投資回収期間を試算

チェックリスト

Token使用量の最適化テクニックを習得した
AI FinOpsの3つの柱を理解した
コスト配賦とチャージバックの仕組みを把握した
最適化施策のROI計算ができる

次のステップへ

次は演習で、NetShop社のコスト最適化計画を実際に策定します。

推定読了時間: 30分