Step 5 確認クイズ
推薦システムの評価・改善に関する確認クイズである。5問中4問以上の正解で合格となる。
Q1. オフライン評価
推薦システムのオフライン評価でランダム分割ではなく時系列分割を使う最大の理由はどれか?
- A) 計算が速い
- B) 未来の情報で学習し過去を予測する情報漏洩を防ぐ
- C) データ量が増える
- D) モデルが単純になる
正解: B) 未来の情報で学習し過去を予測する情報漏洩を防ぐ
解説: ランダム分割では未来のインタラクションが学習データに混入し、非現実的に高い評価結果になる。時系列分割は実運用と同じ条件(過去で学習→未来を予測)を再現する。
Q2. NDCG
NDCG@10が0.8のモデルAとHit Rate@10が0.9のモデルBがある。どちらが上位の推薦品質が高いと判断できるか?
- A) モデルA(NDCGが高いため)
- B) モデルB(Hit Rateが高いため)
- C) 指標が異なるため直接比較できない
- D) 両方同じ品質
正解: C) 指標が異なるため直接比較できない
解説: NDCGは順位を考慮したランキング品質、Hit Rateは1件でも正解を含むかの二値指標であり、測定対象が異なる。同一指標で比較するか、複数指標を総合的に判断する必要がある。
Q3. インターリービング
インターリービングがA/Bテストより少ないサンプルで結果を得られる理由はどれか?
- A) 統計的検定を省略するため
- B) 同一ユーザーに両方の推薦を見せるため分散が小さい
- C) ランダム性を排除するため
- D) 計算量が少ないため
正解: B) 同一ユーザーに両方の推薦を見せるため分散が小さい
解説: A/Bテストはユーザー間の比較であり個人差が分散の原因になる。インターリービングは同一ユーザーに混合リストを見せるため、個人差の影響が排除され、少ないサンプルで有意な差を検出できる。
Q4. 探索と活用
Thompson Samplingがepsilon-greedyより優れている点はどれか?
- A) 実装が簡単
- B) 不確実性が高いアイテムを優先的に探索できる
- C) 常に最適な推薦を返す
- D) メモリ使用量が少ない
正解: B) 不確実性が高いアイテムを優先的に探索できる
解説: Thompson Samplingはベータ分布からサンプリングするため、データの少ないアイテム(不確実性が高い)は分散が大きく、高い値がサンプルされる確率がある。これにより情報不足のアイテムを効率的に探索できる。
Q5. フィルターバブル
フィルターバブルの最も直接的な悪影響はどれか?
- A) サーバーコストの増加
- B) ユーザーの嗜好が狭まり長期的な満足度が低下する
- C) モデルの学習速度が低下する
- D) データベースの容量不足
正解: B) ユーザーの嗜好が狭まり長期的な満足度が低下する
解説: フィルターバブルでは、ユーザーが過去に反応した狭いジャンルの推薦が繰り返され、新しい発見の機会が失われる。短期的にはCTRが高くても、長期的には飽きや離脱につながる。
結果
- 4問以上正解(80%以上): 合格。Step 5「エージェントを評価・改善しよう」を修了。
- 3問以下: 各レッスンを復習してから再挑戦しよう。
推定所要時間: 15分