クイズの説明
Step 4「コスト最適化戦略を策定しよう」の理解度を確認します。AIシステムのコスト構造、トークン最適化、キャッシュ戦略、AI FinOpsについて問います。
合格ライン: 80%(5問中4問正解)
問題
Q1. LLM APIのコスト計算
全社AIチャットボットが月間50,000クエリを処理しています。1クエリあたりの平均入力トークンは4,000、出力トークンは600です。GPT-4o(入力$2.50/1Mトークン、出力$10.00/1Mトークン)を使用している場合、月間のLLM API利用料はおよそいくらですか?
- A. 約$200(約3万円)
- B. 約$500(約7.5万円)
- C. 約$800(約12万円)
- D. 約$1,500(約22.5万円)
答えを見る
正解: C
計算式は以下の通りです。
入力トークン: 50,000 × 4,000 = 200,000,000 (200M)
出力トークン: 50,000 × 600 = 30,000,000 (30M)
入力コスト: 200 × $2.50 = $500
出力コスト: 30 × $10.00 = $300
合計: $500 + $300 = $800(約12万円)
LLM APIのコスト計算では、入力トークンと出力トークンの単価が異なる点が重要です。出力トークンは入力の4倍の単価であるため、出力トークン数が少なくても(30M vs 200M)、コストへのインパクトは大きくなります($300 vs $500)。$200(A)は入力コストのみ、$500(B)は入力コストのみ、$1,500(D)は入力と出力の単価を逆に計算した場合の値です。
Q2. トークン最適化手法
RAGベースのAIチャットボットで、1リクエストあたりの入力トークンが8,000(システムプロンプト1,200 + RAGコンテキスト4,500 + 会話履歴2,000 + ユーザー入力300)の場合、最も効果的なトークン削減アプローチはどれですか?
- A. ユーザー入力を100トークン以下に制限する
- B. RAGのチャンクサイズ縮小とtop-k削減でコンテキストを1,500トークンに圧縮する
- C. システムプロンプトを英語に変換して600トークンにする
- D. 出力トークンの上限を200に設定する
答えを見る
正解: B
トークン削減は「最も多くのトークンを消費している部分」から着手するのが原則です。
入力トークンの内訳:
RAGコンテキスト: 4,500 (56%) ← 最大の削減ターゲット
会話履歴: 2,000 (25%)
システムプロンプト: 1,200 (15%)
ユーザー入力: 300 (4%)
B: RAGコンテキスト 4,500→1,500 = 3,000トークン削減(37.5%削減)
C: システムプロンプト 1,200→600 = 600トークン削減(7.5%削減)
A: ユーザー入力 300→100 = 200トークン削減(2.5%削減)
D: 出力トークンの制限は入力コストに影響しない
RAGコンテキストが全入力の56%を占めているため、チャンクサイズの縮小とリランキングによるtop-k削減(例: top-5 → top-3)で最も大きな削減効果が得られます。ユーザー入力の制限(A)は削減量が小さく、ユーザー体験も損ないます。システムプロンプトの英語化(C)も有効ですが、削減量はBに比べて小さいです。
Q3. キャッシュ戦略の選択
セマンティックキャッシュの類似度閾値を0.85に設定したところ、キャッシュヒット率は55%に達しましたが、「異なる質問に対して誤った回答を返す」ケースが増えました。最も適切な対応はどれですか?
- A. キャッシュを無効化し、全クエリをLLMで処理する
- B. 類似度閾値を0.95に引き上げ、キャッシュヒット率が下がることを受け入れる
- C. 類似度閾値を0.92に調整し、質問の正規化処理を追加してヒット率を補う
- D. キャッシュのTTLを1時間に短縮して、誤った回答の影響時間を減らす
答えを見る
正解: C
セマンティックキャッシュの運用では、精度(正しいキャッシュ応答の割合)とヒット率のバランスが重要です。
閾値とヒット率・精度の関係:
0.85: ヒット率55%, 精度85% ← 現状(精度不足)
0.92: ヒット率35%, 精度95% ← バランスが良い
0.95: ヒット率20%, 精度97% ← 精度重視すぎ
キャッシュ無効化(A)はコスト最適化の放棄であり不適切です。閾値を0.95まで上げる(B)と精度は上がりますが、ヒット率が20%まで低下し、コスト削減効果が大幅に減少します。TTL短縮(D)は問題の本質(閾値設定)を解決しません。
C の「閾値0.92 + 質問の正規化」が最適です。閾値を適度に上げて精度を確保しつつ、正規化処理(表記ゆれ統一、余分な記号除去等)を追加することでヒット率の低下を補います。正規化により、意味的に同じ質問の表記を統一でき、閾値を上げてもヒット率を30-40%に維持できます。
Q4. FinOpsのフレームワーク適用
AI FinOpsのInform(可視化)フェーズで最も重要な活動はどれですか?
- A. プロンプトの最適化によるトークン削減を実施する
- B. API呼び出しにタグ(部門・プロジェクト・ユースケース)を付与し、コストの配賦基盤を構築する
- C. コスト削減目標を設定し、部門別の予算上限を決める
- D. キャッシュ戦略を導入してAPI利用料を削減する
答えを見る
正解: B
FinOpsの3フェーズ — Inform(可視化)→ Optimize(最適化)→ Operate(運用)— は順序が重要です。
Inform(可視化): コストの現状を正確に把握する
→ B: タグ付けによるコスト配賦基盤の構築 ✓
Optimize(最適化): 無駄を削減する
→ A: トークン削減 ✗(Optimizeフェーズの活動)
→ D: キャッシュ導入 ✗(Optimizeフェーズの活動)
Operate(運用): 継続的にコスト効率を維持する
→ C: 予算設定・管理 ✗(Operateフェーズの活動)
Informフェーズの本質は「どこにいくらかかっているか」を全員が理解できる状態を作ることです。タグ付けによるコスト配賦基盤がなければ、部門別・プロジェクト別のコストが把握できず、最適化の優先順位も決められません。「計測できないものは改善できない」— これがInformフェーズを最初に行う理由です。
Q5. コスト最適化の判断
以下の4つのコスト最適化施策を実施する場合、最初に着手すべきはどれですか?
| 施策 | 実施コスト | 月間削減額 | 実施期間 |
|---|---|---|---|
| A: プロンプト最適化 | 10万円 | 15万円 | 1週間 |
| B: モデルルーティング | 80万円 | 45万円 | 1ヶ月 |
| C: セマンティックキャッシュ | 50万円 | 30万円 | 2週間 |
| D: オンプレミスGPU導入 | 500万円 | 20万円 | 3ヶ月 |
- A. プロンプト最適化
- B. モデルルーティング
- C. セマンティックキャッシュ
- D. オンプレミスGPU導入
答えを見る
正解: A
コスト最適化施策の優先順位は「ROI(投資対効果)」と「実施期間」で判断します。
各施策の6ヶ月ROI:
A: (15万 × 6 - 10万) / 10万 = 800% ← 最高ROI + 最短期間
B: (45万 × 6 - 80万) / 80万 = 238%
C: (30万 × 6 - 50万) / 50万 = 260%
D: (20万 × 6 - 500万) / 500万 = -76% ← 6ヶ月では投資回収できない
実施期間:
A: 1週間 ← 最速で効果を出せる
B: 1ヶ月
C: 2週間
D: 3ヶ月
プロンプト最適化(A)はROI 800%かつ1週間で実施可能であり、「低コスト・高効果・即効性」の3拍子が揃っています。最初にAを実施して短期間で成果を出し、その削減効果で得た余裕を使ってB、Cと段階的に進めるのが正しいアプローチです。オンプレミスGPU導入(D)は初期投資が大きく、6ヶ月時点ではROIがマイナスであり、現段階では優先度が低い施策です。
結果
合格(4問以上正解)
Step 4の内容をよく理解しています。AIシステムのコスト構造、トークン最適化、キャッシュ戦略、AI FinOpsの要点を身につけました。次のStep 5に進みましょう。
不合格(3問以下正解)
Step 4の内容を復習しましょう。特に以下のポイントを重点的に確認してください:
- コスト計算 — 入力トークンと出力トークンの単価差を正確に把握する
- トークン最適化 — 最もトークンを消費している部分から着手する
- キャッシュ — 精度とヒット率のバランスが重要
- FinOps — Inform → Optimize → Operateの順序を守る
推定所要時間: 30分