LESSON 30分

ストーリー

田中VPoE
パイプラインの設計がわかったところで、次は技術スタックの選定だ。LLMOpsを実現するためのプラットフォームやツールを比較検討しよう
あなた
調べてみたら、LangSmith、Weights & Biases、Helicone、Portkey など色々あって迷います。どう選べばいいですか?
田中VPoE
まずカテゴリごとに整理することが大事だ。LLMOpsのツールは大きく5つのカテゴリに分かれる。それぞれの役割を理解してから、自分たちの要件に合ったものを選ぼう

LLMOpsツールのカテゴリ

LLMOpsに関連するツールは以下の5カテゴリに分類できます。

カテゴリ役割主なツール
オブザーバビリティログ収集、トレーシング、メトリクスLangSmith, Helicone, Langfuse, Arize
ゲートウェイルーティング、レート制限、フォールバックPortkey, LiteLLM, AI Gateway (Cloudflare)
評価自動品質評価、回帰テストPromptfoo, DeepEval, Ragas
プロンプト管理バージョン管理、A/Bテスト、テンプレートLangfuse, PromptLayer, Humanloop
オーケストレーションワークフロー構築、エージェント実行LangChain, LlamaIndex, Semantic Kernel
LLMOpsツールスタックの全体像:

┌─────────────────────────────────────────┐
│          アプリケーション層              │
│  (カスタマーサポートAI, FAQ Bot, etc.)   │
├─────────────────────────────────────────┤
│     オーケストレーション層               │
│  (LangChain / LlamaIndex / 自前実装)    │
├─────────────────────────────────────────┤
│        ゲートウェイ層                    │
│  (Portkey / LiteLLM / Cloudflare)       │
├─────────────────────────────────────────┤
│      オブザーバビリティ層                │
│  (LangSmith / Langfuse / Helicone)      │
├─────────────────────────────────────────┤
│        評価・改善層                      │
│  (Promptfoo / DeepEval / Ragas)         │
├─────────────────────────────────────────┤
│     プロンプト管理層                     │
│  (Langfuse / PromptLayer / Git管理)     │
└─────────────────────────────────────────┘

主要プラットフォーム比較

オブザーバビリティ

項目LangSmithLangfuseHelicone
提供形態SaaS / Self-hostedOSS / SaaSOSS / SaaS
トレーシングLangChain統合が強力OpenTelemetry準拠プロキシベース
プロンプト管理ありあり(充実)限定的
評価機能あり(LangChain連携)あり限定的
コスト追跡ありあり強力
セルフホストEnterprise のみOSS で可能OSS で可能
適した場面LangChainエコシステム利用時OSS重視、柔軟性重視シンプルなログ・コスト管理

ゲートウェイ

項目PortkeyLiteLLMCloudflare AI Gateway
マルチプロバイダ100+ モデル対応100+ モデル対応主要プロバイダ対応
フォールバックありありあり
キャッシュありRedis連携エッジキャッシュ
レート制限ありありあり
ロードバランスありありあり
セルフホスト可能OSSCloudflare上のみ
適した場面本格的なAI Gateway開発者フレンドリーCloudflareユーザー

評価フレームワーク

項目PromptfooDeepEvalRagas
対象プロンプト評価全般LLMアプリ全般RAG特化
CI/CD連携CLI中心、CI/CD向きpytest統合pytest統合
カスタム評価JavaScript/PythonPythonPython
LLM-as-Judgeありありあり
レッドチーミングありあり限定的
適した場面プロンプトのCI/CDテスト駆動開発RAGの品質改善

技術スタック選定のフレームワーク

選定基準

基準重み評価ポイント
要件適合性自社の課題を直接解決するか
運用コストライセンス費用、インフラ費用、学習コスト
セルフホスト可否データを外部に出せない場合は必須
エコシステム既存ツールとの統合容易性
コミュニティドキュメント充実度、更新頻度
ロックイン低〜中特定ベンダーへの依存度

パターン別推奨スタック

パターンA: スタートアップ / スモールチーム
├── ゲートウェイ: LiteLLM (OSS)
├── オブザーバビリティ: Langfuse (OSS, セルフホスト)
├── 評価: Promptfoo (OSS)
└── 理由: コスト最小、セルフホスト可能、柔軟性重視

パターンB: LangChainエコシステム利用
├── ゲートウェイ: Portkey or LiteLLM
├── オブザーバビリティ: LangSmith
├── 評価: LangSmith + Promptfoo
└── 理由: LangChainとのシームレスな統合

パターンC: エンタープライズ / セキュリティ重視
├── ゲートウェイ: 自前実装 + AWS API Gateway
├── オブザーバビリティ: Langfuse (セルフホスト) + Datadog
├── 評価: DeepEval + カスタム評価基盤
└── 理由: データ外部送信不可、既存監視基盤との統合

パターンD: Cloudflareエコシステム利用
├── ゲートウェイ: Cloudflare AI Gateway
├── オブザーバビリティ: Helicone + Workers Analytics
├── 評価: Promptfoo
└── 理由: エッジ活用、グローバル展開

Build vs Buy の判断

観点Build(自前構築)Buy(ツール導入)
初期コスト高(開発工数)低〜中(ライセンス)
運用コスト高(保守・機能追加)低(SaaS任せ)
カスタマイズ性ツール依存
セキュリティ完全制御ベンダー依存
市場追従速度遅い速い
推奨場面コア競争力に関わる部分コモディティ化した機能

「うちの場合、ゲートウェイとオブザーバビリティはOSSツールを活用し、評価基盤はドメイン固有の品質基準があるから半自前で構築する方針にしよう」 — 田中VPoE


まとめ

ポイント内容
5つのカテゴリオブザーバビリティ、ゲートウェイ、評価、プロンプト管理、オーケストレーションに分類して選定する
選定基準要件適合性とコストを最重視し、セルフホスト可否やエコシステムも考慮する
パターン別推奨チーム規模・セキュリティ要件・既存エコシステムに応じて最適な組み合わせが異なる
Build vs Buyコア競争力に関わらない部分はツール活用、ドメイン固有の評価基盤は自前構築を検討

チェックリスト

  • LLMOpsツールの5カテゴリを説明できる
  • 主要なオブザーバビリティツールの違いを理解した
  • ゲートウェイツールの選定基準を把握した
  • 自チームに適した技術スタックパターンを判断できる

推定読了時間: 30分