Step 3 確認クイズ

離反予測モデル構築に関する確認クイズである。5問中4問以上の正解で合格。

Q1. 評価指標の選択

離反予測のような不均衡データ（離反26.5%）で、最も不適切な主指標はどれか？

正解: B) Accuracy

解説: 不均衡データでは、すべて「非離反」と予測するだけでAccuracyは73.5%になる。これでは離反者を一人も検出できないのに高スコアが出てしまう。AUC-ROC, PR-AUC, F1-Scoreは識別能力を正しく評価できる指標である。

ランダムフォレストとXGBoostの違いとして正しいものはどれか？

正解: B) ランダムフォレストは分散を減らし、XGBoostはバイアスを減らす

解説: ランダムフォレストはバギング（並列に独立した木を構築して平均化）で分散を減らす。XGBoostはブースティング（前の木の誤りを補正するように順次構築）でバイアスを減らす。どちらも決定木ベースでスケーリングは不要。

Telco Churnデータセットにおいて、「サービス加入数（num_services）」を特徴量として作成する理由として最も適切なものはどれか？

正解: B) 付加サービスの加入がロックイン効果を持ち、離反率に影響するため

解説: EDAで「サービス加入数が多い顧客ほど離反率が低い」ことが判明した。これはロックイン効果（スイッチングコストの増加）を反映しており、ドメイン知識に基づく有効な特徴量である。

Optunaのベイズ最適化がGrid Searchより効率的な理由として正しいものはどれか？

正解: B) 過去の試行結果から有望な領域を推定し、探索範囲を絞り込むから

解説: Optunaのベイズ最適化（TPE: Tree-structured Parzen Estimator）は、過去の試行結果に基づいて目的関数のサロゲートモデルを構築し、次に試すべきパラメータを効率的に選択する。Grid Searchの網羅的探索に比べ、少ない試行数で良い結果を見つけられる。

以下の結果が得られた場合、最も適切な解釈はどれか？

訓練 AUC-ROC: 0.98
テスト AUC-ROC: 0.82
差分: 0.16

正解: C) 過学習が発生しており、正則化の強化やモデルの簡素化が必要

解説: 訓練スコアとテストスコアの差が0.16と大きく、モデルが訓練データに過度に適合している。対策としては、正則化パラメータ（reg_alpha, reg_lambda）の増加、max_depthの減少、min_samples_leafの増加、early_stoppingの導入などがある。

推定所要時間: 30分