LLMOpsプラットフォーム比較

ストーリー

田

田中VPoE

パイプラインの設計がわかったところで、次は技術スタックの選定だ。LLMOpsを実現するためのプラットフォームやツールを比較検討しよう

あなた

調べてみたら、LangSmith、Weights & Biases、Helicone、Portkey など色々あって迷います。どう選べばいいですか？

あ

田

田中VPoE

まずカテゴリごとに整理することが大事だ。LLMOpsのツールは大きく5つのカテゴリに分かれる。それぞれの役割を理解してから、自分たちの要件に合ったものを選ぼう

LLMOpsツールのカテゴリ

LLMOpsに関連するツールは以下の5カテゴリに分類できます。

カテゴリ	役割	主なツール
オブザーバビリティ	ログ収集、トレーシング、メトリクス	LangSmith, Helicone, Langfuse, Arize
ゲートウェイ	ルーティング、レート制限、フォールバック	Portkey, LiteLLM, AI Gateway (Cloudflare)
評価	自動品質評価、回帰テスト	Promptfoo, DeepEval, Ragas
プロンプト管理	バージョン管理、A/Bテスト、テンプレート	Langfuse, PromptLayer, Humanloop
オーケストレーション	ワークフロー構築、エージェント実行	LangChain, LlamaIndex, Semantic Kernel

LLMOpsツールスタックの全体像:

┌─────────────────────────────────────────┐
│          アプリケーション層              │
│  (カスタマーサポートAI, FAQ Bot, etc.)   │
├─────────────────────────────────────────┤
│     オーケストレーション層               │
│  (LangChain / LlamaIndex / 自前実装)    │
├─────────────────────────────────────────┤
│        ゲートウェイ層                    │
│  (Portkey / LiteLLM / Cloudflare)       │
├─────────────────────────────────────────┤
│      オブザーバビリティ層                │
│  (LangSmith / Langfuse / Helicone)      │
├─────────────────────────────────────────┤
│        評価・改善層                      │
│  (Promptfoo / DeepEval / Ragas)         │
├─────────────────────────────────────────┤
│     プロンプト管理層                     │
│  (Langfuse / PromptLayer / Git管理)     │
└─────────────────────────────────────────┘

主要プラットフォーム比較

オブザーバビリティ

項目	LangSmith	Langfuse	Helicone
提供形態	SaaS / Self-hosted	OSS / SaaS	OSS / SaaS
トレーシング	LangChain統合が強力	OpenTelemetry準拠	プロキシベース
プロンプト管理	あり	あり（充実）	限定的
評価機能	あり（LangChain連携）	あり	限定的
コスト追跡	あり	あり	強力
セルフホスト	Enterprise のみ	OSS で可能	OSS で可能
適した場面	LangChainエコシステム利用時	OSS重視、柔軟性重視	シンプルなログ・コスト管理

ゲートウェイ

項目	Portkey	LiteLLM	Cloudflare AI Gateway
マルチプロバイダ	100+ モデル対応	100+ モデル対応	主要プロバイダ対応
フォールバック	あり	あり	あり
キャッシュ	あり	Redis連携	エッジキャッシュ
レート制限	あり	あり	あり
ロードバランス	あり	あり	あり
セルフホスト	可能	OSS	Cloudflare上のみ
適した場面	本格的なAI Gateway	開発者フレンドリー	Cloudflareユーザー

評価フレームワーク

項目	Promptfoo	DeepEval	Ragas
対象	プロンプト評価全般	LLMアプリ全般	RAG特化
CI/CD連携	CLI中心、CI/CD向き	pytest統合	pytest統合
カスタム評価	JavaScript/Python	Python	Python
LLM-as-Judge	あり	あり	あり
レッドチーミング	あり	あり	限定的
適した場面	プロンプトのCI/CD	テスト駆動開発	RAGの品質改善

技術スタック選定のフレームワーク

選定基準

基準	重み	評価ポイント
要件適合性	高	自社の課題を直接解決するか
運用コスト	高	ライセンス費用、インフラ費用、学習コスト
セルフホスト可否	中	データを外部に出せない場合は必須
エコシステム	中	既存ツールとの統合容易性
コミュニティ	中	ドキュメント充実度、更新頻度
ロックイン	低〜中	特定ベンダーへの依存度

パターン別推奨スタック

パターンA: スタートアップ / スモールチーム
├── ゲートウェイ: LiteLLM (OSS)
├── オブザーバビリティ: Langfuse (OSS, セルフホスト)
├── 評価: Promptfoo (OSS)
└── 理由: コスト最小、セルフホスト可能、柔軟性重視

パターンB: LangChainエコシステム利用
├── ゲートウェイ: Portkey or LiteLLM
├── オブザーバビリティ: LangSmith
├── 評価: LangSmith + Promptfoo
└── 理由: LangChainとのシームレスな統合

パターンC: エンタープライズ / セキュリティ重視
├── ゲートウェイ: 自前実装 + AWS API Gateway
├── オブザーバビリティ: Langfuse (セルフホスト) + Datadog
├── 評価: DeepEval + カスタム評価基盤
└── 理由: データ外部送信不可、既存監視基盤との統合

パターンD: Cloudflareエコシステム利用
├── ゲートウェイ: Cloudflare AI Gateway
├── オブザーバビリティ: Helicone + Workers Analytics
├── 評価: Promptfoo
└── 理由: エッジ活用、グローバル展開

Build vs Buy の判断

観点	Build（自前構築）	Buy（ツール導入）
初期コスト	高（開発工数）	低〜中（ライセンス）
運用コスト	高（保守・機能追加）	低（SaaS任せ）
カスタマイズ性	高	ツール依存
セキュリティ	完全制御	ベンダー依存
市場追従速度	遅い	速い
推奨場面	コア競争力に関わる部分	コモディティ化した機能

「うちの場合、ゲートウェイとオブザーバビリティはOSSツールを活用し、評価基盤はドメイン固有の品質基準があるから半自前で構築する方針にしよう」 — 田中VPoE

まとめ

ポイント	内容
5つのカテゴリ	オブザーバビリティ、ゲートウェイ、評価、プロンプト管理、オーケストレーションに分類して選定する
選定基準	要件適合性とコストを最重視し、セルフホスト可否やエコシステムも考慮する
パターン別推奨	チーム規模・セキュリティ要件・既存エコシステムに応じて最適な組み合わせが異なる
Build vs Buy	コア競争力に関わらない部分はツール活用、ドメイン固有の評価基盤は自前構築を検討

チェックリスト

LLMOpsツールの5カテゴリを説明できる
主要なオブザーバビリティツールの違いを理解した
ゲートウェイツールの選定基準を把握した
自チームに適した技術スタックパターンを判断できる

推定読了時間: 30分