QUIZ 30分

クイズの説明

Step 4「コスト最適化戦略を策定しよう」の理解度を確認します。AIシステムのコスト構造、トークン最適化、キャッシュ戦略、AI FinOpsについて問います。

合格ライン: 80%(5問中4問正解)


問題

Q1. LLM APIのコスト計算

全社AIチャットボットが月間50,000クエリを処理しています。1クエリあたりの平均入力トークンは4,000、出力トークンは600です。GPT-4o(入力$2.50/1Mトークン、出力$10.00/1Mトークン)を使用している場合、月間のLLM API利用料はおよそいくらですか?

  • A. 約$200(約3万円)
  • B. 約$500(約7.5万円)
  • C. 約$800(約12万円)
  • D. 約$1,500(約22.5万円)
答えを見る

正解: C

計算式は以下の通りです。

入力トークン: 50,000 × 4,000 = 200,000,000 (200M)
出力トークン: 50,000 × 600 = 30,000,000 (30M)

入力コスト: 200 × $2.50 = $500
出力コスト:  30 × $10.00 = $300

合計: $500 + $300 = $800(約12万円)

LLM APIのコスト計算では、入力トークンと出力トークンの単価が異なる点が重要です。出力トークンは入力の4倍の単価であるため、出力トークン数が少なくても(30M vs 200M)、コストへのインパクトは大きくなります($300 vs $500)。$200(A)は入力コストのみ、$500(B)は入力コストのみ、$1,500(D)は入力と出力の単価を逆に計算した場合の値です。


Q2. トークン最適化手法

RAGベースのAIチャットボットで、1リクエストあたりの入力トークンが8,000(システムプロンプト1,200 + RAGコンテキスト4,500 + 会話履歴2,000 + ユーザー入力300)の場合、最も効果的なトークン削減アプローチはどれですか?

  • A. ユーザー入力を100トークン以下に制限する
  • B. RAGのチャンクサイズ縮小とtop-k削減でコンテキストを1,500トークンに圧縮する
  • C. システムプロンプトを英語に変換して600トークンにする
  • D. 出力トークンの上限を200に設定する
答えを見る

正解: B

トークン削減は「最も多くのトークンを消費している部分」から着手するのが原則です。

入力トークンの内訳:
  RAGコンテキスト: 4,500 (56%) ← 最大の削減ターゲット
  会話履歴:       2,000 (25%)
  システムプロンプト: 1,200 (15%)
  ユーザー入力:      300 (4%)

B: RAGコンテキスト 4,500→1,500 = 3,000トークン削減(37.5%削減)
C: システムプロンプト 1,200→600 = 600トークン削減(7.5%削減)
A: ユーザー入力 300→100 = 200トークン削減(2.5%削減)
D: 出力トークンの制限は入力コストに影響しない

RAGコンテキストが全入力の56%を占めているため、チャンクサイズの縮小とリランキングによるtop-k削減(例: top-5 → top-3)で最も大きな削減効果が得られます。ユーザー入力の制限(A)は削減量が小さく、ユーザー体験も損ないます。システムプロンプトの英語化(C)も有効ですが、削減量はBに比べて小さいです。


Q3. キャッシュ戦略の選択

セマンティックキャッシュの類似度閾値を0.85に設定したところ、キャッシュヒット率は55%に達しましたが、「異なる質問に対して誤った回答を返す」ケースが増えました。最も適切な対応はどれですか?

  • A. キャッシュを無効化し、全クエリをLLMで処理する
  • B. 類似度閾値を0.95に引き上げ、キャッシュヒット率が下がることを受け入れる
  • C. 類似度閾値を0.92に調整し、質問の正規化処理を追加してヒット率を補う
  • D. キャッシュのTTLを1時間に短縮して、誤った回答の影響時間を減らす
答えを見る

正解: C

セマンティックキャッシュの運用では、精度(正しいキャッシュ応答の割合)とヒット率のバランスが重要です。

閾値とヒット率・精度の関係:
  0.85: ヒット率55%, 精度85%  ← 現状(精度不足)
  0.92: ヒット率35%, 精度95%  ← バランスが良い
  0.95: ヒット率20%, 精度97%  ← 精度重視すぎ

キャッシュ無効化(A)はコスト最適化の放棄であり不適切です。閾値を0.95まで上げる(B)と精度は上がりますが、ヒット率が20%まで低下し、コスト削減効果が大幅に減少します。TTL短縮(D)は問題の本質(閾値設定)を解決しません。

C の「閾値0.92 + 質問の正規化」が最適です。閾値を適度に上げて精度を確保しつつ、正規化処理(表記ゆれ統一、余分な記号除去等)を追加することでヒット率の低下を補います。正規化により、意味的に同じ質問の表記を統一でき、閾値を上げてもヒット率を30-40%に維持できます。


Q4. FinOpsのフレームワーク適用

AI FinOpsのInform(可視化)フェーズで最も重要な活動はどれですか?

  • A. プロンプトの最適化によるトークン削減を実施する
  • B. API呼び出しにタグ(部門・プロジェクト・ユースケース)を付与し、コストの配賦基盤を構築する
  • C. コスト削減目標を設定し、部門別の予算上限を決める
  • D. キャッシュ戦略を導入してAPI利用料を削減する
答えを見る

正解: B

FinOpsの3フェーズ — Inform(可視化)→ Optimize(最適化)→ Operate(運用)— は順序が重要です。

Inform(可視化): コストの現状を正確に把握する
  → B: タグ付けによるコスト配賦基盤の構築 ✓

Optimize(最適化): 無駄を削減する
  → A: トークン削減 ✗(Optimizeフェーズの活動)
  → D: キャッシュ導入 ✗(Optimizeフェーズの活動)

Operate(運用): 継続的にコスト効率を維持する
  → C: 予算設定・管理 ✗(Operateフェーズの活動)

Informフェーズの本質は「どこにいくらかかっているか」を全員が理解できる状態を作ることです。タグ付けによるコスト配賦基盤がなければ、部門別・プロジェクト別のコストが把握できず、最適化の優先順位も決められません。「計測できないものは改善できない」— これがInformフェーズを最初に行う理由です。


Q5. コスト最適化の判断

以下の4つのコスト最適化施策を実施する場合、最初に着手すべきはどれですか?

施策実施コスト月間削減額実施期間
A: プロンプト最適化10万円15万円1週間
B: モデルルーティング80万円45万円1ヶ月
C: セマンティックキャッシュ50万円30万円2週間
D: オンプレミスGPU導入500万円20万円3ヶ月
  • A. プロンプト最適化
  • B. モデルルーティング
  • C. セマンティックキャッシュ
  • D. オンプレミスGPU導入
答えを見る

正解: A

コスト最適化施策の優先順位は「ROI(投資対効果)」と「実施期間」で判断します。

各施策の6ヶ月ROI:
  A: (15万 × 6 - 10万) / 10万 = 800%  ← 最高ROI + 最短期間
  B: (45万 × 6 - 80万) / 80万 = 238%
  C: (30万 × 6 - 50万) / 50万 = 260%
  D: (20万 × 6 - 500万) / 500万 = -76%  ← 6ヶ月では投資回収できない

実施期間:
  A: 1週間  ← 最速で効果を出せる
  B: 1ヶ月
  C: 2週間
  D: 3ヶ月

プロンプト最適化(A)はROI 800%かつ1週間で実施可能であり、「低コスト・高効果・即効性」の3拍子が揃っています。最初にAを実施して短期間で成果を出し、その削減効果で得た余裕を使ってB、Cと段階的に進めるのが正しいアプローチです。オンプレミスGPU導入(D)は初期投資が大きく、6ヶ月時点ではROIがマイナスであり、現段階では優先度が低い施策です。


結果

合格(4問以上正解)

Step 4の内容をよく理解しています。AIシステムのコスト構造、トークン最適化、キャッシュ戦略、AI FinOpsの要点を身につけました。次のStep 5に進みましょう。

不合格(3問以下正解)

Step 4の内容を復習しましょう。特に以下のポイントを重点的に確認してください:

  • コスト計算 — 入力トークンと出力トークンの単価差を正確に把握する
  • トークン最適化 — 最もトークンを消費している部分から着手する
  • キャッシュ — 精度とヒット率のバランスが重要
  • FinOps — Inform → Optimize → Operateの順序を守る

推定所要時間: 30分