クイズの説明
Step 4「LLM APIを堅牢に統合しよう」の理解度を確認します。全6問、80%以上正解で合格です。
問題
Q1. LLM APIで429エラーが返された場合の最適な対応はどれですか?
- A) 即座にリクエストを破棄する
- B) Exponential backoffでリトライする
- C) 別のAPIエンドポイントに切り替える
- D) エラーをそのままユーザーに表示する
答えを見る
正解: B
429はRate Limit超過を示すエラーで、一定時間後にリトライすれば成功する可能性が高いです。Exponential backoff(1秒→2秒→4秒と間隔を広げる)が標準的な対応です。
Q2. モデルルーティングの主な目的はどれですか?
- A) 全リクエストを最高性能モデルで処理する
- B) リクエストの複雑度に応じたモデル使い分けでコストを最適化する
- C) 全リクエストを最安モデルで処理する
- D) モデルのバージョン管理を行う
答えを見る
正解: B
モデルルーティングは、簡単なリクエストには低コストモデル、複雑なリクエストには高性能モデルを使い分けることで、品質を維持しながらコストを大幅に削減する戦略です。
Q3. ストリーミングレスポンスの主なUX上のメリットはどれですか?
- A) 回答の品質が向上する
- B) Time to First Token(TTFT)が短くなり、体感速度が改善される
- C) コストが削減される
- D) エラー率が低下する
答えを見る
正解: B
ストリーミングにより最初のトークンが素早く表示され、ユーザーの待ち時間の体感が大幅に改善されます。全体の処理時間は変わりませんが、UXが向上します。
Q4. セマンティックキャッシュの仕組みとして正しいものはどれですか?
- A) URLベースで完全一致するリクエストをキャッシュする
- B) リクエストをエンベディング化し、類似度の高いキャッシュを返却する
- C) LLMの内部状態をキャッシュする
- D) ブラウザのローカルストレージにキャッシュする
答えを見る
正解: B
セマンティックキャッシュは、リクエストをエンベディング化して意味的に類似する過去のリクエスト・レスポンスをキャッシュから返却します。完全一致でなくても類似の質問に対応できます。
Q5. LLM APIのCircuit Breakerが開く条件として適切なものはどれですか?
- A) CPU使用率が50%を超えた
- B) 直近N回のリクエストのエラー率が閾値を超えた
- C) ユーザーからのリクエストが増加した
- D) APIの応答サイズが大きくなった
答えを見る
正解: B
Circuit Breakerは、直近のリクエストにおけるエラー率やタイムアウト率が一定の閾値を超えた場合にサーキットを「開」にし、一時的にリクエストを遮断してフォールバックに切り替えます。
Q6. ファインチューニングがFew-shotより有利になるのはどのような場合ですか?
- A) 月間リクエスト数が少ない場合
- B) タスクが頻繁に変わる場合
- C) 大量のリクエストがあり、一貫した出力品質が求められる場合
- D) 初期コストを最小化したい場合
答えを見る
正解: C
ファインチューニングは初期のトレーニングコストがかかりますが、推論時にFew-shotの例示トークンが不要なためリクエスト単価が下がります。大量リクエスト時に損益分岐点を超えて有利になります。
結果
5問以上正解の場合
合格です。 LLM統合の知識を理解しています。Step 5に進みましょう。
4問以下の場合
もう少し復習しましょう。 エラーハンドリング、ストリーミング、コスト最適化を確認してください。