本番モニタリング - L0 カリキュラム

LESSON 25分

ストーリー

佐

佐藤CTO

評価パイプラインで品質を検証した。だが本番投入後も油断はできない

佐

佐藤CTO

ドキュメントの追加、ユーザーの質問傾向の変化、モデルのアップデート — どれもが品質を変動させる要因だ。継続的なモニタリングが必須だ

LLMOpsの監視項目

品質メトリクス

メトリクス	計測方法	アラート閾値
ユーザー評価	👍/👎ボタン	👎率 > 15%
回答の関連度	LLM-as-Judgeで自動スコアリング	平均スコア < 3.5/5
ハルシネーション率	コンテキスト忠実度チェック	率 > 5%
「わかりません」率	回答不能の割合	率 > 20%

パフォーマンスメトリクス

メトリクス	目標	アラート
TTFT（初回トークン）	< 1秒	> 3秒
Total Latency	< 5秒	> 10秒
スループット	100 req/min	< 50 req/min
エラー率	< 1%	> 5%

コストメトリクス

メトリクス	監視方法
日次コスト	モデル別・機能別のコスト集計
リクエスト単価	平均トークン数 × 単価
キャッシュヒット率	キャッシュ利用回数 / 総リクエスト数

ドリフト検知

入力ドリフト

監視対象:
  - 質問のトピック分布の変化
  - 平均質問長の変化
  - 新規語彙の出現率

検知方法:
  - 質問のエンベディングの分布変化（KL divergence）
  - 週次でトピッククラスタリング → 分布比較

コンテキストドリフト

チェック項目	頻度	対応
ドキュメント更新頻度	日次	更新があればインデックス再構築
検索ヒット率の変化	リアルタイム	低下時にアラート
古いドキュメントの参照率	週次	古い情報の更新・削除

フィードバックループ

ユーザーフィードバック（👍/👎 + コメント）
    │
    ▼
フィードバック集計・分析
    │
    ├─ 低評価パターン分析 → プロンプト改善
    ├─ 未回答質問の蓄積 → ドキュメント追加
    └─ 高評価パターン → ベストプラクティス化

まとめ

ポイント	内容
品質監視	ユーザー評価 + 自動スコアリングの二重チェック
パフォーマンス	TTFT、レイテンシ、エラー率をリアルタイム監視
ドリフト検知	入力・コンテキストの変化を早期に検知
フィードバック	ユーザーの声を継続的改善に繋げる

次のステップへ

次は演習で評価パイプラインを構築します。

推定読了時間: 25分