LESSON 30分

ストーリー

田中VPoE
LLMOpsの全体像を掴んだところで、次はパイプラインの設計だ。LLMアプリケーションのライフサイクル全体を通じて、どんなパイプラインが必要になるか見ていこう
あなた
従来のCI/CDパイプラインとは違うんですか?
田中VPoE
コードのCI/CDは当然必要だが、それに加えて「プロンプトのCI/CD」「評価パイプライン」「モニタリングパイプライン」が加わる。LLMアプリケーションは、コードだけでなくプロンプトとデータが品質を左右するからだ
あなた
プロンプトにもCI/CDがあるんですね

LLMOpsライフサイクル

LLMアプリケーションのライフサイクルは4つのフェーズで構成されます。

┌─────────────────────────────────────────────────────────┐
│                   LLMOps ライフサイクル                    │
│                                                         │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────┐ │
│  │  開発     │→│  評価     │→│ デプロイ   │→│モニタリング│ │
│  │ Develop  │  │ Evaluate │  │  Deploy  │  │ Monitor  │ │
│  └──────────┘  └──────────┘  └──────────┘  └──────────┘ │
│       ↑                                        │        │
│       └────────── フィードバック ──────────────────┘        │
└─────────────────────────────────────────────────────────┘

Phase 1: 開発(Develop)

コンポーネント内容
プロンプトエンジニアリングシステムプロンプト設計、Few-shot例の選定、出力フォーマット定義
RAGパイプライン開発ドキュメント取り込み、チャンキング、Embedding生成、検索ロジック
ガードレール実装入力バリデーション、出力フィルタリング、安全性チェック
プロンプトバージョン管理Git管理、変更履歴の追跡、ロールバック機能
プロンプト開発のワークフロー:

1. プロンプト設計
   ├── システムプロンプトの作成
   ├── Few-shot例の選定
   └── 出力スキーマの定義

2. ローカル評価
   ├── 代表的なテストケースで動作確認
   ├── エッジケースの検証
   └── 安全性テスト(有害入力への応答確認)

3. バージョン登録
   ├── プロンプトをGitにコミット
   ├── メタデータ(目的、想定モデル、パラメータ)を記録
   └── 変更理由をドキュメント化

Phase 2: 評価(Evaluate)

評価種別内容自動化
単体テスト個別のプロンプトに対する期待出力の検証可能
回帰テスト既存の正解セットに対する品質維持確認可能
安全性テストプロンプトインジェクション耐性、有害出力の検出可能
品質評価Faithfulness、Relevance、Coherenceのスコアリング半自動(LLM-as-a-Judge)
人間評価ドメイン専門家による回答品質の確認手動
# 評価パイプラインの設定例
evaluation:
  datasets:
    - name: "regression_test_v3"
      path: "tests/eval/regression.jsonl"
      size: 200

  metrics:
    - name: "faithfulness"
      threshold: 0.85
      evaluator: "llm-as-judge"
    - name: "relevance"
      threshold: 0.80
      evaluator: "llm-as-judge"
    - name: "toxicity"
      threshold: 0.05  # 5%未満
      evaluator: "classifier"
    - name: "latency_p95"
      threshold: 3000  # ms
      evaluator: "metric"

  gates:
    - stage: "staging"
      required_pass: ["faithfulness", "relevance", "toxicity"]
    - stage: "production"
      required_pass: ["all"]

Phase 3: デプロイ(Deploy)

戦略説明適用場面
カナリアリリース新プロンプトを一部のトラフィックに適用プロンプトの大幅変更時
ブルーグリーン新旧環境を切り替えモデルバージョンの切替時
フィーチャーフラグユーザー属性に応じてプロンプトを切替A/Bテスト、段階的ロールアウト
シャドウモード新プロンプトを並行実行し結果を比較(ユーザーには旧版を返す)リスクの高い変更時

Phase 4: モニタリング(Monitor)

モニタリング対象メトリクス例
レイテンシP50/P95/P99、TTFT(Time To First Token)
コストトークン使用量、API呼び出し回数、ユースケース別コスト
品質ユーザー評価(thumbs up/down)、自動品質スコア、ハルシネーション率
信頼性エラー率、タイムアウト率、フォールバック発動率
セキュリティプロンプトインジェクション試行数、PII検出数

プロンプトCI/CDパイプライン

従来のコードCI/CDに加え、プロンプト専用のCI/CDパイプラインを構築します。

プロンプトCI/CDパイプライン:

┌─────────┐    ┌──────────┐    ┌──────────┐    ┌──────────┐    ┌─────────┐
│ Git Push │ →  │ Lint &   │ →  │ 評価     │ →  │ Staging  │ →  │  Prod   │
│ (prompt) │    │ Validate │    │ テスト   │    │ デプロイ  │    │ デプロイ │
└─────────┘    └──────────┘    └──────────┘    └──────────┘    └─────────┘
                    │               │               │               │
                    ▼               ▼               ▼               ▼
               構文チェック      回帰テスト     カナリア10%      全トラフィック
               変数の存在確認    安全性テスト    品質ゲート確認    モニタリング開始
               トークン数推定    品質スコア

パイプライン設計のポイント

ポイント説明
プロンプトとコードの分離管理プロンプトの変更はコード変更より頻繁。独立したデプロイサイクルを持たせる
評価データセットの継続的更新本番で見つかった問題ケースを評価セットに追加し続ける
ロールバックの即時性プロンプトのロールバックはコードより迅速に行えるように設計する
環境間のモデル整合性Staging と Production で同じモデルバージョンを使う。モデル差異による評価の無効化を防ぐ

RAGパイプラインの運用

RAG(Retrieval-Augmented Generation)を使用するシステムでは、追加のパイプライン管理が必要です。

RAGパイプラインの構成:

データソース                インジェスション           検索・生成
┌──────────┐              ┌──────────────┐          ┌──────────────┐
│ ドキュメント│ → スケジュール │ チャンキング   │ → 検索   │ リトリーバー  │
│ DB更新    │   /イベント   │ Embedding生成 │   クエリ  │ リランキング  │
│ API変更   │              │ ベクトルDB格納 │          │ コンテキスト構築│
└──────────┘              └──────────────┘          │ LLM生成     │
                                                   └──────────────┘
管理項目内容
データ鮮度ドキュメントの更新頻度、古いチャンクの検出と削除
チャンク品質チャンクサイズの最適化、オーバーラップ設定、メタデータ付与
EmbeddingバージョンEmbeddingモデルの変更時は全データの再Embedding が必要
検索品質検索精度(Recall@k)の定期測定、リランキングモデルの評価

まとめ

ポイント内容
4つのフェーズ開発→評価→デプロイ→モニタリングのサイクルを回す
プロンプトCI/CDプロンプトもコードと同様にCI/CDパイプラインで管理する
評価ゲート自動評価テストをパスしなければデプロイしない品質ゲートを設ける
RAGパイプラインデータの鮮度、チャンク品質、Embeddingバージョンの管理が追加で必要

チェックリスト

  • LLMOpsの4つのフェーズを説明できる
  • プロンプトCI/CDパイプラインの設計ポイントを理解した
  • 評価パイプラインに含めるべきテスト種別を把握した
  • RAGパイプライン固有の管理項目を理解した

推定読了時間: 30分