チェックポイント - L0 カリキュラム

クイズの説明

Step 4「コスト最適化戦略を策定しよう」の理解度を確認します。AIシステムのコスト構造、トークン最適化、キャッシュ戦略、AI FinOpsについて問います。

合格ライン: 80%（5問中4問正解）

問題

Q1. LLM APIのコスト計算

全社AIチャットボットが月間50,000クエリを処理しています。1クエリあたりの平均入力トークンは4,000、出力トークンは600です。GPT-4o（入力$2.50/1Mトークン、出力$10.00/1Mトークン）を使用している場合、月間のLLM API利用料はおよそいくらですか？

A. 約$200（約3万円）
B. 約$500（約7.5万円）
C. 約$800（約12万円）
D. 約$1,500（約22.5万円）

答えを見る

正解: C

計算式は以下の通りです。

入力トークン: 50,000 × 4,000 = 200,000,000 (200M)
出力トークン: 50,000 × 600 = 30,000,000 (30M)

入力コスト: 200 × $2.50 = $500
出力コスト:  30 × $10.00 = $300

合計: $500 + $300 = $800（約12万円）

LLM APIのコスト計算では、入力トークンと出力トークンの単価が異なる点が重要です。出力トークンは入力の4倍の単価であるため、出力トークン数が少なくても（30M vs 200M）、コストへのインパクトは大きくなります（$300 vs $500）。$200（A）は入力コストのみ、$500（B）は入力コストのみ、$1,500（D）は入力と出力の単価を逆に計算した場合の値です。

Q2. トークン最適化手法

RAGベースのAIチャットボットで、1リクエストあたりの入力トークンが8,000（システムプロンプト1,200 + RAGコンテキスト4,500 + 会話履歴2,000 + ユーザー入力300）の場合、最も効果的なトークン削減アプローチはどれですか？

A. ユーザー入力を100トークン以下に制限する
B. RAGのチャンクサイズ縮小とtop-k削減でコンテキストを1,500トークンに圧縮する
C. システムプロンプトを英語に変換して600トークンにする
D. 出力トークンの上限を200に設定する

答えを見る

正解: B

トークン削減は「最も多くのトークンを消費している部分」から着手するのが原則です。

入力トークンの内訳:
  RAGコンテキスト: 4,500 (56%) ← 最大の削減ターゲット
  会話履歴:       2,000 (25%)
  システムプロンプト: 1,200 (15%)
  ユーザー入力:      300 (4%)

B: RAGコンテキスト 4,500→1,500 = 3,000トークン削減（37.5%削減）
C: システムプロンプト 1,200→600 = 600トークン削減（7.5%削減）
A: ユーザー入力 300→100 = 200トークン削減（2.5%削減）
D: 出力トークンの制限は入力コストに影響しない

RAGコンテキストが全入力の56%を占めているため、チャンクサイズの縮小とリランキングによるtop-k削減（例: top-5 → top-3）で最も大きな削減効果が得られます。ユーザー入力の制限（A）は削減量が小さく、ユーザー体験も損ないます。システムプロンプトの英語化（C）も有効ですが、削減量はBに比べて小さいです。

Q3. キャッシュ戦略の選択

セマンティックキャッシュの類似度閾値を0.85に設定したところ、キャッシュヒット率は55%に達しましたが、「異なる質問に対して誤った回答を返す」ケースが増えました。最も適切な対応はどれですか？

A. キャッシュを無効化し、全クエリをLLMで処理する
B. 類似度閾値を0.95に引き上げ、キャッシュヒット率が下がることを受け入れる
C. 類似度閾値を0.92に調整し、質問の正規化処理を追加してヒット率を補う
D. キャッシュのTTLを1時間に短縮して、誤った回答の影響時間を減らす

答えを見る

正解: C

セマンティックキャッシュの運用では、精度（正しいキャッシュ応答の割合）とヒット率のバランスが重要です。

閾値とヒット率・精度の関係:
  0.85: ヒット率55%, 精度85%  ← 現状（精度不足）
  0.92: ヒット率35%, 精度95%  ← バランスが良い
  0.95: ヒット率20%, 精度97%  ← 精度重視すぎ

キャッシュ無効化（A）はコスト最適化の放棄であり不適切です。閾値を0.95まで上げる（B）と精度は上がりますが、ヒット率が20%まで低下し、コスト削減効果が大幅に減少します。TTL短縮（D）は問題の本質（閾値設定）を解決しません。

C の「閾値0.92 + 質問の正規化」が最適です。閾値を適度に上げて精度を確保しつつ、正規化処理（表記ゆれ統一、余分な記号除去等）を追加することでヒット率の低下を補います。正規化により、意味的に同じ質問の表記を統一でき、閾値を上げてもヒット率を30-40%に維持できます。

Q4. FinOpsのフレームワーク適用

AI FinOpsのInform（可視化）フェーズで最も重要な活動はどれですか？

A. プロンプトの最適化によるトークン削減を実施する
B. API呼び出しにタグ（部門・プロジェクト・ユースケース）を付与し、コストの配賦基盤を構築する
C. コスト削減目標を設定し、部門別の予算上限を決める
D. キャッシュ戦略を導入してAPI利用料を削減する

答えを見る

正解: B

FinOpsの3フェーズ — Inform（可視化）→ Optimize（最適化）→ Operate（運用）— は順序が重要です。

Inform（可視化）: コストの現状を正確に把握する
  → B: タグ付けによるコスト配賦基盤の構築 ✓

Optimize（最適化）: 無駄を削減する
  → A: トークン削減 ✗（Optimizeフェーズの活動）
  → D: キャッシュ導入 ✗（Optimizeフェーズの活動）

Operate（運用）: 継続的にコスト効率を維持する
  → C: 予算設定・管理 ✗（Operateフェーズの活動）

Informフェーズの本質は「どこにいくらかかっているか」を全員が理解できる状態を作ることです。タグ付けによるコスト配賦基盤がなければ、部門別・プロジェクト別のコストが把握できず、最適化の優先順位も決められません。「計測できないものは改善できない」— これがInformフェーズを最初に行う理由です。

Q5. コスト最適化の判断

以下の4つのコスト最適化施策を実施する場合、最初に着手すべきはどれですか？

施策	実施コスト	月間削減額	実施期間
A: プロンプト最適化	10万円	15万円	1週間
B: モデルルーティング	80万円	45万円	1ヶ月
C: セマンティックキャッシュ	50万円	30万円	2週間
D: オンプレミスGPU導入	500万円	20万円	3ヶ月

A. プロンプト最適化
B. モデルルーティング
C. セマンティックキャッシュ
D. オンプレミスGPU導入

答えを見る

正解: A

コスト最適化施策の優先順位は「ROI（投資対効果）」と「実施期間」で判断します。

各施策の6ヶ月ROI:
  A: (15万 × 6 - 10万) / 10万 = 800%  ← 最高ROI + 最短期間
  B: (45万 × 6 - 80万) / 80万 = 238%
  C: (30万 × 6 - 50万) / 50万 = 260%
  D: (20万 × 6 - 500万) / 500万 = -76%  ← 6ヶ月では投資回収できない

実施期間:
  A: 1週間  ← 最速で効果を出せる
  B: 1ヶ月
  C: 2週間
  D: 3ヶ月

プロンプト最適化（A）はROI 800%かつ1週間で実施可能であり、「低コスト・高効果・即効性」の3拍子が揃っています。最初にAを実施して短期間で成果を出し、その削減効果で得た余裕を使ってB、Cと段階的に進めるのが正しいアプローチです。オンプレミスGPU導入（D）は初期投資が大きく、6ヶ月時点ではROIがマイナスであり、現段階では優先度が低い施策です。

結果

合格（4問以上正解）

Step 4の内容をよく理解しています。AIシステムのコスト構造、トークン最適化、キャッシュ戦略、AI FinOpsの要点を身につけました。次のStep 5に進みましょう。

不合格（3問以下正解）

Step 4の内容を復習しましょう。特に以下のポイントを重点的に確認してください：

コスト計算 — 入力トークンと出力トークンの単価差を正確に把握する
トークン最適化 — 最もトークンを消費している部分から着手する
キャッシュ — 精度とヒット率のバランスが重要
FinOps — Inform → Optimize → Operateの順序を守る

推定所要時間: 30分