ストーリー
田
田中VPoE
パイプラインの設計がわかったところで、次は技術スタックの選定だ。LLMOpsを実現するためのプラットフォームやツールを比較検討しよう
あなた
調べてみたら、LangSmith、Weights & Biases、Helicone、Portkey など色々あって迷います。どう選べばいいですか?
あ
田
田中VPoE
まずカテゴリごとに整理することが大事だ。LLMOpsのツールは大きく5つのカテゴリに分かれる。それぞれの役割を理解してから、自分たちの要件に合ったものを選ぼう
LLMOpsツールのカテゴリ
LLMOpsに関連するツールは以下の5カテゴリに分類できます。
| カテゴリ | 役割 | 主なツール |
|---|
| オブザーバビリティ | ログ収集、トレーシング、メトリクス | LangSmith, Helicone, Langfuse, Arize |
| ゲートウェイ | ルーティング、レート制限、フォールバック | Portkey, LiteLLM, AI Gateway (Cloudflare) |
| 評価 | 自動品質評価、回帰テスト | Promptfoo, DeepEval, Ragas |
| プロンプト管理 | バージョン管理、A/Bテスト、テンプレート | Langfuse, PromptLayer, Humanloop |
| オーケストレーション | ワークフロー構築、エージェント実行 | LangChain, LlamaIndex, Semantic Kernel |
LLMOpsツールスタックの全体像:
┌─────────────────────────────────────────┐
│ アプリケーション層 │
│ (カスタマーサポートAI, FAQ Bot, etc.) │
├─────────────────────────────────────────┤
│ オーケストレーション層 │
│ (LangChain / LlamaIndex / 自前実装) │
├─────────────────────────────────────────┤
│ ゲートウェイ層 │
│ (Portkey / LiteLLM / Cloudflare) │
├─────────────────────────────────────────┤
│ オブザーバビリティ層 │
│ (LangSmith / Langfuse / Helicone) │
├─────────────────────────────────────────┤
│ 評価・改善層 │
│ (Promptfoo / DeepEval / Ragas) │
├─────────────────────────────────────────┤
│ プロンプト管理層 │
│ (Langfuse / PromptLayer / Git管理) │
└─────────────────────────────────────────┘
主要プラットフォーム比較
オブザーバビリティ
| 項目 | LangSmith | Langfuse | Helicone |
|---|
| 提供形態 | SaaS / Self-hosted | OSS / SaaS | OSS / SaaS |
| トレーシング | LangChain統合が強力 | OpenTelemetry準拠 | プロキシベース |
| プロンプト管理 | あり | あり(充実) | 限定的 |
| 評価機能 | あり(LangChain連携) | あり | 限定的 |
| コスト追跡 | あり | あり | 強力 |
| セルフホスト | Enterprise のみ | OSS で可能 | OSS で可能 |
| 適した場面 | LangChainエコシステム利用時 | OSS重視、柔軟性重視 | シンプルなログ・コスト管理 |
ゲートウェイ
| 項目 | Portkey | LiteLLM | Cloudflare AI Gateway |
|---|
| マルチプロバイダ | 100+ モデル対応 | 100+ モデル対応 | 主要プロバイダ対応 |
| フォールバック | あり | あり | あり |
| キャッシュ | あり | Redis連携 | エッジキャッシュ |
| レート制限 | あり | あり | あり |
| ロードバランス | あり | あり | あり |
| セルフホスト | 可能 | OSS | Cloudflare上のみ |
| 適した場面 | 本格的なAI Gateway | 開発者フレンドリー | Cloudflareユーザー |
評価フレームワーク
| 項目 | Promptfoo | DeepEval | Ragas |
|---|
| 対象 | プロンプト評価全般 | LLMアプリ全般 | RAG特化 |
| CI/CD連携 | CLI中心、CI/CD向き | pytest統合 | pytest統合 |
| カスタム評価 | JavaScript/Python | Python | Python |
| LLM-as-Judge | あり | あり | あり |
| レッドチーミング | あり | あり | 限定的 |
| 適した場面 | プロンプトのCI/CD | テスト駆動開発 | RAGの品質改善 |
技術スタック選定のフレームワーク
選定基準
| 基準 | 重み | 評価ポイント |
|---|
| 要件適合性 | 高 | 自社の課題を直接解決するか |
| 運用コスト | 高 | ライセンス費用、インフラ費用、学習コスト |
| セルフホスト可否 | 中 | データを外部に出せない場合は必須 |
| エコシステム | 中 | 既存ツールとの統合容易性 |
| コミュニティ | 中 | ドキュメント充実度、更新頻度 |
| ロックイン | 低〜中 | 特定ベンダーへの依存度 |
パターン別推奨スタック
パターンA: スタートアップ / スモールチーム
├── ゲートウェイ: LiteLLM (OSS)
├── オブザーバビリティ: Langfuse (OSS, セルフホスト)
├── 評価: Promptfoo (OSS)
└── 理由: コスト最小、セルフホスト可能、柔軟性重視
パターンB: LangChainエコシステム利用
├── ゲートウェイ: Portkey or LiteLLM
├── オブザーバビリティ: LangSmith
├── 評価: LangSmith + Promptfoo
└── 理由: LangChainとのシームレスな統合
パターンC: エンタープライズ / セキュリティ重視
├── ゲートウェイ: 自前実装 + AWS API Gateway
├── オブザーバビリティ: Langfuse (セルフホスト) + Datadog
├── 評価: DeepEval + カスタム評価基盤
└── 理由: データ外部送信不可、既存監視基盤との統合
パターンD: Cloudflareエコシステム利用
├── ゲートウェイ: Cloudflare AI Gateway
├── オブザーバビリティ: Helicone + Workers Analytics
├── 評価: Promptfoo
└── 理由: エッジ活用、グローバル展開
Build vs Buy の判断
| 観点 | Build(自前構築) | Buy(ツール導入) |
|---|
| 初期コスト | 高(開発工数) | 低〜中(ライセンス) |
| 運用コスト | 高(保守・機能追加) | 低(SaaS任せ) |
| カスタマイズ性 | 高 | ツール依存 |
| セキュリティ | 完全制御 | ベンダー依存 |
| 市場追従速度 | 遅い | 速い |
| 推奨場面 | コア競争力に関わる部分 | コモディティ化した機能 |
「うちの場合、ゲートウェイとオブザーバビリティはOSSツールを活用し、評価基盤はドメイン固有の品質基準があるから半自前で構築する方針にしよう」 — 田中VPoE
まとめ
| ポイント | 内容 |
|---|
| 5つのカテゴリ | オブザーバビリティ、ゲートウェイ、評価、プロンプト管理、オーケストレーションに分類して選定する |
| 選定基準 | 要件適合性とコストを最重視し、セルフホスト可否やエコシステムも考慮する |
| パターン別推奨 | チーム規模・セキュリティ要件・既存エコシステムに応じて最適な組み合わせが異なる |
| Build vs Buy | コア競争力に関わらない部分はツール活用、ドメイン固有の評価基盤は自前構築を検討 |
チェックリスト
推定読了時間: 30分