LESSON 25分

ストーリー

佐藤CTO
評価パイプラインで品質を検証した。だが本番投入後も油断はできない
佐藤CTO
ドキュメントの追加、ユーザーの質問傾向の変化、モデルのアップデート — どれもが品質を変動させる要因だ。継続的なモニタリングが必須だ

LLMOpsの監視項目

品質メトリクス

メトリクス計測方法アラート閾値
ユーザー評価👍/👎ボタン👎率 > 15%
回答の関連度LLM-as-Judgeで自動スコアリング平均スコア < 3.5/5
ハルシネーション率コンテキスト忠実度チェック率 > 5%
「わかりません」率回答不能の割合率 > 20%

パフォーマンスメトリクス

メトリクス目標アラート
TTFT(初回トークン)< 1秒> 3秒
Total Latency< 5秒> 10秒
スループット100 req/min< 50 req/min
エラー率< 1%> 5%

コストメトリクス

メトリクス監視方法
日次コストモデル別・機能別のコスト集計
リクエスト単価平均トークン数 × 単価
キャッシュヒット率キャッシュ利用回数 / 総リクエスト数

ドリフト検知

入力ドリフト

監視対象:
  - 質問のトピック分布の変化
  - 平均質問長の変化
  - 新規語彙の出現率

検知方法:
  - 質問のエンベディングの分布変化(KL divergence)
  - 週次でトピッククラスタリング → 分布比較

コンテキストドリフト

チェック項目頻度対応
ドキュメント更新頻度日次更新があればインデックス再構築
検索ヒット率の変化リアルタイム低下時にアラート
古いドキュメントの参照率週次古い情報の更新・削除

フィードバックループ

ユーザーフィードバック(👍/👎 + コメント)


フィードバック集計・分析

    ├─ 低評価パターン分析 → プロンプト改善
    ├─ 未回答質問の蓄積 → ドキュメント追加
    └─ 高評価パターン → ベストプラクティス化

まとめ

ポイント内容
品質監視ユーザー評価 + 自動スコアリングの二重チェック
パフォーマンスTTFT、レイテンシ、エラー率をリアルタイム監視
ドリフト検知入力・コンテキストの変化を早期に検知
フィードバックユーザーの声を継続的改善に繋げる

次のステップへ

次は演習で評価パイプラインを構築します。


推定読了時間: 25分