LESSON 15分

ストーリー

田中VPoE
評価とモニタリングの仕組みを整えた。最後に運用設計だ。インデックスの更新戦略、スケーリング、コスト管理 — 安定運用に必要な設計を固める
あなた
構築よりも運用の方が長く続きますもんね
田中VPoE
その通り。RAGシステムは「ナマモノ」だ。ドキュメントが更新されれば再インデックスが必要、利用者が増えればスケーリングが必要、APIの値上げがあればコスト最適化が必要。運用を見据えた設計こそが本番品質だ

インデックス更新戦略

更新パターン

パターントリガー処理ダウンタイム
差分更新ドキュメントの変更通知(Webhook/ポーリング)変更分のみUpsert/Deleteなし
定期全量再構築スケジュール(週次/月次)新しいコレクションを構築→切り替え切り替え時のみ
Blue-Green更新手動/CI新旧2つのコレクションを並行運用→切り替えなし

Blue-Greenインデックス更新

Blue-Green更新の流れ:

[現在] Blue(本番稼働中)

[Step 1] Green(新規コレクション)を構築
  → 全ドキュメントを再チャンキング、再Embedding、再インデックス

[Step 2] Greenの品質検証
  → 評価データセットでRAGASスコアを確認
  → Blue以上の品質であることを確認

[Step 3] トラフィック切り替え
  → API Gatewayの向き先をBlue → Greenに変更

[Step 4] 旧Blueコレクションの削除(一定期間後)

スケーリング設計

水平スケーリング

コンポーネントスケーリング方法トリガー
APIサーバーECS Auto ScalingCPU/メモリ利用率、リクエスト数
ベクトルDBQdrantレプリカ追加検索レイテンシ、QPS
前処理パイプラインLambda並列実行数調整キューの滞留数

キャパシティプランニング

項目現在6ヶ月後12ヶ月後
ドキュメント数38,000件50,000件70,000件
チャンク数190,000250,000350,000
ベクトルDBサイズ1.7GB2.3GB3.2GB
日次クエリ数500件1,000件2,000件
必要RAM4GB6GB8GB

コスト管理

コスト最適化施策

施策削減効果実装難易度
セマンティックキャッシュAPI利用料15〜25%削減
モデルティアリング(簡単な質問は安価なモデル)API利用料20〜30%削減
プロンプト最適化(トークン削減)API利用料10〜15%削減
バッチEmbedding(リアルタイムを避ける)Embedding費用30%削減
リザーブドインスタンス(EC2)インフラ費30〜40%削減

コスト監視

監視項目頻度アラート条件
日次API利用料日次予算の110%超過
クエリあたりコスト週次前週比20%以上増加
月次総コスト月次予算の90%到達で警告

「コスト管理は後回しにするな。APIの従量課金は知らぬ間に膨らむ。日次での可視化が必須だ」 — 田中VPoE


まとめ

ポイント内容
インデックス更新差分更新 + 定期的なBlue-Green全量再構築
スケーリングコンポーネント別のAuto Scaling + キャパシティプランニング
コスト管理キャッシュ、モデルティアリング、プロンプト最適化の3本柱

チェックリスト

  • Blue-Greenインデックス更新の仕組みを理解した
  • コンポーネント別のスケーリング方法を理解した
  • コスト最適化の主要施策を理解した

次のステップへ

次は「演習:RAG評価ダッシュボードを設計しよう」です。ここまでの評価・モニタリング・運用設計の知識を統合して、実践的なダッシュボードを設計しましょう。


推定読了時間: 15分