LESSON

Step 3 確認クイズ

離反予測モデル構築に関する確認クイズである。5問中4問以上の正解で合格。


Q1. 評価指標の選択

離反予測のような不均衡データ(離反26.5%)で、最も不適切な主指標はどれか?

  • A) AUC-ROC
  • B) Accuracy
  • C) PR-AUC
  • D) F1-Score

正解: B) Accuracy

解説: 不均衡データでは、すべて「非離反」と予測するだけでAccuracyは73.5%になる。これでは離反者を一人も検出できないのに高スコアが出てしまう。AUC-ROC, PR-AUC, F1-Scoreは識別能力を正しく評価できる指標である。


Q2. ランダムフォレスト vs XGBoost

ランダムフォレストとXGBoostの違いとして正しいものはどれか?

  • A) ランダムフォレストはブースティング、XGBoostはバギング
  • B) ランダムフォレストは分散を減らし、XGBoostはバイアスを減らす
  • C) XGBoostはスケーリングが必須で、ランダムフォレストは不要
  • D) ランダムフォレストの方が常にXGBoostより高精度

正解: B) ランダムフォレストは分散を減らし、XGBoostはバイアスを減らす

解説: ランダムフォレストはバギング(並列に独立した木を構築して平均化)で分散を減らす。XGBoostはブースティング(前の木の誤りを補正するように順次構築)でバイアスを減らす。どちらも決定木ベースでスケーリングは不要。


Q3. 特徴量エンジニアリング

Telco Churnデータセットにおいて、「サービス加入数(num_services)」を特徴量として作成する理由として最も適切なものはどれか?

  • A) データ量を増やすため
  • B) 付加サービスの加入がロックイン効果を持ち、離反率に影響するため
  • C) One-Hotエンコーディングの代替手法として
  • D) モデルの計算速度を上げるため

正解: B) 付加サービスの加入がロックイン効果を持ち、離反率に影響するため

解説: EDAで「サービス加入数が多い顧客ほど離反率が低い」ことが判明した。これはロックイン効果(スイッチングコストの増加)を反映しており、ドメイン知識に基づく有効な特徴量である。


Q4. Optunaによる最適化

Optunaのベイズ最適化がGrid Searchより効率的な理由として正しいものはどれか?

  • A) 全ての組み合わせを高速に計算できるから
  • B) 過去の試行結果から有望な領域を推定し、探索範囲を絞り込むから
  • C) ハイパーパラメータの数を自動的に減らすから
  • D) 交差検証を省略できるから

正解: B) 過去の試行結果から有望な領域を推定し、探索範囲を絞り込むから

解説: Optunaのベイズ最適化(TPE: Tree-structured Parzen Estimator)は、過去の試行結果に基づいて目的関数のサロゲートモデルを構築し、次に試すべきパラメータを効率的に選択する。Grid Searchの網羅的探索に比べ、少ない試行数で良い結果を見つけられる。


Q5. 過学習の検知

以下の結果が得られた場合、最も適切な解釈はどれか?

訓練 AUC-ROC: 0.98
テスト AUC-ROC: 0.82
差分: 0.16
  • A) 十分に高性能なモデルであり問題ない
  • B) テストデータの品質が低い
  • C) 過学習が発生しており、正則化の強化やモデルの簡素化が必要
  • D) 訓練データが少なすぎる

正解: C) 過学習が発生しており、正則化の強化やモデルの簡素化が必要

解説: 訓練スコアとテストスコアの差が0.16と大きく、モデルが訓練データに過度に適合している。対策としては、正則化パラメータ(reg_alpha, reg_lambda)の増加、max_depthの減少、min_samples_leafの増加、early_stoppingの導入などがある。


結果

  • 4問以上正解: 合格。Step 4に進もう。
  • 3問以下: Step 3のレッスンを復習してから再挑戦しよう。

推定所要時間: 30分