ストーリー
佐
佐藤CTO
評価パイプラインで品質を検証した。だが本番投入後も油断はできない
佐
佐藤CTO
ドキュメントの追加、ユーザーの質問傾向の変化、モデルのアップデート — どれもが品質を変動させる要因だ。継続的なモニタリングが必須だ
LLMOpsの監視項目
品質メトリクス
| メトリクス | 計測方法 | アラート閾値 |
|---|
| ユーザー評価 | 👍/👎ボタン | 👎率 > 15% |
| 回答の関連度 | LLM-as-Judgeで自動スコアリング | 平均スコア < 3.5/5 |
| ハルシネーション率 | コンテキスト忠実度チェック | 率 > 5% |
| 「わかりません」率 | 回答不能の割合 | 率 > 20% |
パフォーマンスメトリクス
| メトリクス | 目標 | アラート |
|---|
| TTFT(初回トークン) | < 1秒 | > 3秒 |
| Total Latency | < 5秒 | > 10秒 |
| スループット | 100 req/min | < 50 req/min |
| エラー率 | < 1% | > 5% |
コストメトリクス
| メトリクス | 監視方法 |
|---|
| 日次コスト | モデル別・機能別のコスト集計 |
| リクエスト単価 | 平均トークン数 × 単価 |
| キャッシュヒット率 | キャッシュ利用回数 / 総リクエスト数 |
ドリフト検知
入力ドリフト
監視対象:
- 質問のトピック分布の変化
- 平均質問長の変化
- 新規語彙の出現率
検知方法:
- 質問のエンベディングの分布変化(KL divergence)
- 週次でトピッククラスタリング → 分布比較
コンテキストドリフト
| チェック項目 | 頻度 | 対応 |
|---|
| ドキュメント更新頻度 | 日次 | 更新があればインデックス再構築 |
| 検索ヒット率の変化 | リアルタイム | 低下時にアラート |
| 古いドキュメントの参照率 | 週次 | 古い情報の更新・削除 |
フィードバックループ
ユーザーフィードバック(👍/👎 + コメント)
│
▼
フィードバック集計・分析
│
├─ 低評価パターン分析 → プロンプト改善
├─ 未回答質問の蓄積 → ドキュメント追加
└─ 高評価パターン → ベストプラクティス化
まとめ
| ポイント | 内容 |
|---|
| 品質監視 | ユーザー評価 + 自動スコアリングの二重チェック |
| パフォーマンス | TTFT、レイテンシ、エラー率をリアルタイム監視 |
| ドリフト検知 | 入力・コンテキストの変化を早期に検知 |
| フィードバック | ユーザーの声を継続的改善に繋げる |
次のステップへ
次は演習で評価パイプラインを構築します。
推定読了時間: 25分