Step 2 確認クイズ
データ探索・分析に関する確認クイズである。5問中4問以上の正解で合格。
Q1. Telco Customer Churnデータセット
Telco Customer Churnデータセットの離反率(Churn=Yes)に最も近い値はどれか?
- A) 約10%
- B) 約26%
- C) 約40%
- D) 約50%
正解: B) 約26%
解説: データセットでは7,043件中1,869件がChurn=Yesであり、離反率は約26.5%。やや不均衡だが極端ではない水準である。
Q2. TotalChargesの欠損値
TotalChargesカラムをfloatに変換した際に発生する欠損値の原因として正しいものはどれか?
- A) データの入力ミス
- B) tenure=0の新規顧客でTotalChargesが空白
- C) 退会済み顧客のデータが削除されている
- D) CSVファイルのエンコーディングエラー
正解: B) tenure=0の新規顧客でTotalChargesが空白
解説: 11件の欠損はすべてtenure=0の顧客であり、まだ請求が発生していないためTotalChargesが空白(スペース)になっている。
Q3. カテゴリカル変数のエンコーディング
「Contract」カラム(Month-to-month, One year, Two year の3値)に対して最も適切なエンコーディング手法はどれか?
- A) Label Encoding(0, 1, 2を割り当て)
- B) One-Hot Encoding(3列に展開、drop_first適用で2列)
- C) Ordinal Encoding(Month-to-month=1, One year=2, Two year=3)
- D) Target Encoding
正解: B) One-Hot Encoding
解説: Contractの3値には本質的な順序がない(Month-to-monthが「1」である理由がない)。Label EncodingやOrdinal Encodingは大小関係を持ち込んでしまうため、One-Hot Encodingが適切。
Q4. スケーリング
以下のモデルのうち、特徴量のスケーリングが必要なものはどれか?
- A) ランダムフォレスト
- B) XGBoost
- C) ロジスティック回帰
- D) LightGBM
正解: C) ロジスティック回帰
解説: 決定木ベースのモデル(ランダムフォレスト、XGBoost、LightGBM)は特徴量の大小関係のみを見るため、スケーリングは不要。ロジスティック回帰は各特徴量の係数が値のスケールに依存するため、スケーリングが必須。
Q5. データ分割
層化抽出(stratify)を使ったデータ分割の目的として最も適切なものはどれか?
- A) データのシャッフルをランダムにするため
- B) 訓練データの件数を最大化するため
- C) 各分割セットで目的変数の比率を同程度に保つため
- D) テストデータに外れ値を含めないようにするため
正解: C) 各分割セットで目的変数の比率を同程度に保つため
解説: 不均衡データで層化抽出を使わないと、ランダム分割により一部のセットで離反率が大きく偏る可能性がある。stratify=yを指定することで、訓練/検証/テストすべてのセットで離反率が約26.5%に保たれる。
結果
- 4問以上正解: 合格。Step 3に進もう。
- 3問以下: Step 2のレッスンを復習してから再挑戦しよう。
推定所要時間: 30分