Step 3 確認クイズ
離反予測モデル構築に関する確認クイズである。5問中4問以上の正解で合格。
Q1. 評価指標の選択
離反予測のような不均衡データ(離反26.5%)で、最も不適切な主指標はどれか?
- A) AUC-ROC
- B) Accuracy
- C) PR-AUC
- D) F1-Score
正解: B) Accuracy
解説: 不均衡データでは、すべて「非離反」と予測するだけでAccuracyは73.5%になる。これでは離反者を一人も検出できないのに高スコアが出てしまう。AUC-ROC, PR-AUC, F1-Scoreは識別能力を正しく評価できる指標である。
Q2. ランダムフォレスト vs XGBoost
ランダムフォレストとXGBoostの違いとして正しいものはどれか?
- A) ランダムフォレストはブースティング、XGBoostはバギング
- B) ランダムフォレストは分散を減らし、XGBoostはバイアスを減らす
- C) XGBoostはスケーリングが必須で、ランダムフォレストは不要
- D) ランダムフォレストの方が常にXGBoostより高精度
正解: B) ランダムフォレストは分散を減らし、XGBoostはバイアスを減らす
解説: ランダムフォレストはバギング(並列に独立した木を構築して平均化)で分散を減らす。XGBoostはブースティング(前の木の誤りを補正するように順次構築)でバイアスを減らす。どちらも決定木ベースでスケーリングは不要。
Q3. 特徴量エンジニアリング
Telco Churnデータセットにおいて、「サービス加入数(num_services)」を特徴量として作成する理由として最も適切なものはどれか?
- A) データ量を増やすため
- B) 付加サービスの加入がロックイン効果を持ち、離反率に影響するため
- C) One-Hotエンコーディングの代替手法として
- D) モデルの計算速度を上げるため
正解: B) 付加サービスの加入がロックイン効果を持ち、離反率に影響するため
解説: EDAで「サービス加入数が多い顧客ほど離反率が低い」ことが判明した。これはロックイン効果(スイッチングコストの増加)を反映しており、ドメイン知識に基づく有効な特徴量である。
Q4. Optunaによる最適化
Optunaのベイズ最適化がGrid Searchより効率的な理由として正しいものはどれか?
- A) 全ての組み合わせを高速に計算できるから
- B) 過去の試行結果から有望な領域を推定し、探索範囲を絞り込むから
- C) ハイパーパラメータの数を自動的に減らすから
- D) 交差検証を省略できるから
正解: B) 過去の試行結果から有望な領域を推定し、探索範囲を絞り込むから
解説: Optunaのベイズ最適化(TPE: Tree-structured Parzen Estimator)は、過去の試行結果に基づいて目的関数のサロゲートモデルを構築し、次に試すべきパラメータを効率的に選択する。Grid Searchの網羅的探索に比べ、少ない試行数で良い結果を見つけられる。
Q5. 過学習の検知
以下の結果が得られた場合、最も適切な解釈はどれか?
訓練 AUC-ROC: 0.98
テスト AUC-ROC: 0.82
差分: 0.16
- A) 十分に高性能なモデルであり問題ない
- B) テストデータの品質が低い
- C) 過学習が発生しており、正則化の強化やモデルの簡素化が必要
- D) 訓練データが少なすぎる
正解: C) 過学習が発生しており、正則化の強化やモデルの簡素化が必要
解説: 訓練スコアとテストスコアの差が0.16と大きく、モデルが訓練データに過度に適合している。対策としては、正則化パラメータ(reg_alpha, reg_lambda)の増加、max_depthの減少、min_samples_leafの増加、early_stoppingの導入などがある。
結果
- 4問以上正解: 合格。Step 4に進もう。
- 3問以下: Step 3のレッスンを復習してから再挑戦しよう。
推定所要時間: 30分