Step 2 確認クイズ

データ探索・分析に関する確認クイズである。5問中4問以上の正解で合格。

Q1. Telco Customer Churnデータセット

Telco Customer Churnデータセットの離反率（Churn=Yes）に最も近い値はどれか？

正解: B) 約26%

解説: データセットでは7,043件中1,869件がChurn=Yesであり、離反率は約26.5%。やや不均衡だが極端ではない水準である。

TotalChargesカラムをfloatに変換した際に発生する欠損値の原因として正しいものはどれか？

正解: B) tenure=0の新規顧客でTotalChargesが空白

解説: 11件の欠損はすべてtenure=0の顧客であり、まだ請求が発生していないためTotalChargesが空白（スペース）になっている。

「Contract」カラム（Month-to-month, One year, Two year の3値）に対して最も適切なエンコーディング手法はどれか？

正解: B) One-Hot Encoding

解説: Contractの3値には本質的な順序がない（Month-to-monthが「1」である理由がない）。Label EncodingやOrdinal Encodingは大小関係を持ち込んでしまうため、One-Hot Encodingが適切。

以下のモデルのうち、特徴量のスケーリングが必要なものはどれか？

正解: C) ロジスティック回帰

解説: 決定木ベースのモデル（ランダムフォレスト、XGBoost、LightGBM）は特徴量の大小関係のみを見るため、スケーリングは不要。ロジスティック回帰は各特徴量の係数が値のスケールに依存するため、スケーリングが必須。

層化抽出（stratify）を使ったデータ分割の目的として最も適切なものはどれか？

正解: C) 各分割セットで目的変数の比率を同程度に保つため

解説: 不均衡データで層化抽出を使わないと、ランダム分割により一部のセットで離反率が大きく偏る可能性がある。stratify=yを指定することで、訓練/検証/テストすべてのセットで離反率が約26.5%に保たれる。

推定所要時間: 30分