Step 5 確認クイズ

推薦システムの評価・改善に関する確認クイズである。5問中4問以上の正解で合格となる。

Q1. オフライン評価

推薦システムのオフライン評価でランダム分割ではなく時系列分割を使う最大の理由はどれか？

正解: B) 未来の情報で学習し過去を予測する情報漏洩を防ぐ

解説: ランダム分割では未来のインタラクションが学習データに混入し、非現実的に高い評価結果になる。時系列分割は実運用と同じ条件（過去で学習→未来を予測）を再現する。

NDCG@10が0.8のモデルAとHit Rate@10が0.9のモデルBがある。どちらが上位の推薦品質が高いと判断できるか？

正解: C) 指標が異なるため直接比較できない

解説: NDCGは順位を考慮したランキング品質、Hit Rateは1件でも正解を含むかの二値指標であり、測定対象が異なる。同一指標で比較するか、複数指標を総合的に判断する必要がある。

インターリービングがA/Bテストより少ないサンプルで結果を得られる理由はどれか？

正解: B) 同一ユーザーに両方の推薦を見せるため分散が小さい

解説: A/Bテストはユーザー間の比較であり個人差が分散の原因になる。インターリービングは同一ユーザーに混合リストを見せるため、個人差の影響が排除され、少ないサンプルで有意な差を検出できる。

Thompson Samplingがepsilon-greedyより優れている点はどれか？

正解: B) 不確実性が高いアイテムを優先的に探索できる

解説: Thompson Samplingはベータ分布からサンプリングするため、データの少ないアイテム（不確実性が高い）は分散が大きく、高い値がサンプルされる確率がある。これにより情報不足のアイテムを効率的に探索できる。

フィルターバブルの最も直接的な悪影響はどれか？

正解: B) ユーザーの嗜好が狭まり長期的な満足度が低下する

解説: フィルターバブルでは、ユーザーが過去に反応した狭いジャンルの推薦が繰り返され、新しい発見の機会が失われる。短期的にはCTRが高くても、長期的には飽きや離脱につながる。

推定所要時間: 15分