演習：推薦システムの評価改善計画を策定しよう

「推薦システムは一度作って終わりではない。継続的に評価し改善する体制が必要だ。」

田中VPoEが指示する。

「オフライン・オンライン評価の計画と、探索・活用戦略を含む改善計画を作成してくれ。」

ミッション概要

NetShop社の推薦システムの継続的な評価・改善計画を策定する。

前提条件

推薦モデル（LightFM + Two-Tower）構築済み
月間100万PV、10万ユーザーのECサイト

Mission 1: オフライン評価計画（20分）

以下を含む評価計画を策定せよ。

評価データセットの分割方法（時系列分割の設計）
使用する評価指標とその目標値
モデル比較のベースライン定義

解答例

=== オフライン評価計画 ===

■ データ分割
直近6ヶ月のインタラクションデータを使用
- 学習: 最初の5ヶ月
- テスト: 最後の1ヶ月
- K-Fold: 時間方向の5分割交差検証

■ 評価指標と目標
| 指標 | 目標値 | 意味 |
|------|--------|------|
| NDCG@10 | > 0.15 | 上位10件のランキング品質 |
| Hit Rate@10 | > 0.40 | 10件以内に正解を含む割合 |
| Recall@20 | > 0.30 | 正解の30%以上をカバー |
| Coverage | > 0.60 | カタログの60%以上を推薦 |

■ ベースライン
1. ランダム推薦
2. 人気ランキング
3. 協調フィルタリング（ALS）
4. LightFM
5. Two-Tower
6. ハイブリッド（LightFM + Two-Tower）

Mission 2: オンライン評価計画（20分）

以下を含むA/Bテスト計画を策定せよ。

テストの仮説と期間
KPI設計と成功基準
リスク管理（トラフィック配分、ロールバック条件）

解答例

=== A/Bテスト計画 ===

■ 仮説
ハイブリッド推薦（B群）は人気ランキング（A群）に比べて:
- CTR: +15%以上
- CVR: +10%以上
- セッション滞在時間: +20%以上

■ テスト設計
- 期間: 3週間（曜日効果+安定化考慮）
- トラフィック配分: A群50% / B群50%
- サンプルサイズ: 各群50,000ユーザー（検出力80%）

■ KPIと成功基準
主指標: CTR（p<0.05 かつ 相対+10%以上）
副指標: CVR、RPV、カート追加率
ガードレール: 直帰率が+5%以上悪化しないこと

■ リスク管理
- 初日は5%のトラフィックから開始し段階的に拡大
- CVRが20%以上悪化した場合は即座にロールバック
- 1週間後に中間レビューを実施

Mission 3: 探索・活用戦略（20分）

以下を含む探索・活用戦略を策定せよ。

Epsilon-Greedyの設定と根拠
多様性指標の定義と目標
フィルターバブル防止策

解答例

=== 探索・活用戦略 ===

■ Epsilon-Greedy設定
- epsilon = 0.15（15%を探索に割り当て）
- 根拠: CTR低下を5%以内に抑えつつ多様性を確保
- 時間減衰: 新規ユーザーはepsilon=0.3、常連はepsilon=0.1

■ 多様性指標
| 指標 | 定義 | 目標 |
|------|------|------|
| カテゴリカバレッジ | 推薦に含まれるユニークカテゴリ数/全カテゴリ数 | > 50% |
| ILD | 推薦リスト内のアイテム間距離の平均 | > 0.3 |
| セレンディピティ | 予想外かつ有用な推薦の割合 | > 10% |

■ フィルターバブル防止
1. 推薦リストの20%を未閲覧カテゴリから選出
2. 週次で推薦カテゴリ分布を監視
3. 同一カテゴリの連続推薦を3件以内に制限

達成度チェック

オフライン評価の指標と目標値を定義した
A/Bテスト計画にリスク管理を含めた
探索・活用のパラメータ設計に根拠を示した
多様性指標とフィルターバブル防止策を含めた

推定所要時間: 60分