LESSON

演習:推薦システムの評価改善計画を策定しよう

「推薦システムは一度作って終わりではない。継続的に評価し改善する体制が必要だ。」

田中VPoEが指示する。

「オフライン・オンライン評価の計画と、探索・活用戦略を含む改善計画を作成してくれ。」

ミッション概要

NetShop社の推薦システムの継続的な評価・改善計画を策定する。

前提条件

  • 推薦モデル(LightFM + Two-Tower)構築済み
  • 月間100万PV、10万ユーザーのECサイト

Mission 1: オフライン評価計画(20分)

以下を含む評価計画を策定せよ。

  1. 評価データセットの分割方法(時系列分割の設計)
  2. 使用する評価指標とその目標値
  3. モデル比較のベースライン定義
解答例
=== オフライン評価計画 ===

■ データ分割
直近6ヶ月のインタラクションデータを使用
- 学習: 最初の5ヶ月
- テスト: 最後の1ヶ月
- K-Fold: 時間方向の5分割交差検証

■ 評価指標と目標
| 指標 | 目標値 | 意味 |
|------|--------|------|
| NDCG@10 | > 0.15 | 上位10件のランキング品質 |
| Hit Rate@10 | > 0.40 | 10件以内に正解を含む割合 |
| Recall@20 | > 0.30 | 正解の30%以上をカバー |
| Coverage | > 0.60 | カタログの60%以上を推薦 |

■ ベースライン
1. ランダム推薦
2. 人気ランキング
3. 協調フィルタリング(ALS)
4. LightFM
5. Two-Tower
6. ハイブリッド(LightFM + Two-Tower)

Mission 2: オンライン評価計画(20分)

以下を含むA/Bテスト計画を策定せよ。

  1. テストの仮説と期間
  2. KPI設計と成功基準
  3. リスク管理(トラフィック配分、ロールバック条件)
解答例
=== A/Bテスト計画 ===

■ 仮説
ハイブリッド推薦(B群)は人気ランキング(A群)に比べて:
- CTR: +15%以上
- CVR: +10%以上
- セッション滞在時間: +20%以上

■ テスト設計
- 期間: 3週間(曜日効果+安定化考慮)
- トラフィック配分: A群50% / B群50%
- サンプルサイズ: 各群50,000ユーザー(検出力80%)

■ KPIと成功基準
主指標: CTR(p<0.05 かつ 相対+10%以上)
副指標: CVR、RPV、カート追加率
ガードレール: 直帰率が+5%以上悪化しないこと

■ リスク管理
- 初日は5%のトラフィックから開始し段階的に拡大
- CVRが20%以上悪化した場合は即座にロールバック
- 1週間後に中間レビューを実施

Mission 3: 探索・活用戦略(20分)

以下を含む探索・活用戦略を策定せよ。

  1. Epsilon-Greedyの設定と根拠
  2. 多様性指標の定義と目標
  3. フィルターバブル防止策
解答例
=== 探索・活用戦略 ===

■ Epsilon-Greedy設定
- epsilon = 0.15(15%を探索に割り当て)
- 根拠: CTR低下を5%以内に抑えつつ多様性を確保
- 時間減衰: 新規ユーザーはepsilon=0.3、常連はepsilon=0.1

■ 多様性指標
| 指標 | 定義 | 目標 |
|------|------|------|
| カテゴリカバレッジ | 推薦に含まれるユニークカテゴリ数/全カテゴリ数 | > 50% |
| ILD | 推薦リスト内のアイテム間距離の平均 | > 0.3 |
| セレンディピティ | 予想外かつ有用な推薦の割合 | > 10% |

■ フィルターバブル防止
1. 推薦リストの20%を未閲覧カテゴリから選出
2. 週次で推薦カテゴリ分布を監視
3. 同一カテゴリの連続推薦を3件以内に制限

達成度チェック

  • オフライン評価の指標と目標値を定義した
  • A/Bテスト計画にリスク管理を含めた
  • 探索・活用のパラメータ設計に根拠を示した
  • 多様性指標とフィルターバブル防止策を含めた

推定所要時間: 60分