特徴量エンジニアリングクイズ
Step 2 で学んだ特徴量エンジニアリングの知識を確認しましょう。
Q1. 特徴量選択手法
以下のうち、ラッパー法(Wrapper Method)に分類されるものはどれですか?
- A: 相関係数による特徴量フィルタリング
- B: 再帰的特徴量削減(RFE)
- C: L1正則化(Lasso)による自動選択
- D: 分散閾値によるフィルタリング
正解: B
解説: RFE(Recursive Feature Elimination)はモデルの精度を評価しながら特徴量を逐次的に削減するラッパー法です。A と D はフィルタ法、C は埋め込み法に分類されます。
Q2. One-hot Encoding
「デバイス種別(PC、スマホ、タブレット)」に One-hot Encoding を drop='first' で適用した場合、生成される列数はいくつですか?
- A: 1列
- B: 2列
- C: 3列
- D: 4列
正解: B
解説: 3つのカテゴリから drop='first' で1つを落とすため、2列が生成されます(例: スマホ列とタブレット列)。drop='first' は多重共線性(ダミー変数トラップ)を防ぐために使用します。
Q3. スケーリング
外れ値が多く含まれるデータに最も適したスケーラーはどれですか?
- A: StandardScaler
- B: MinMaxScaler
- C: RobustScaler
- D: MaxAbsScaler
正解: C
解説: RobustScaler は中央値と四分位範囲(IQR)を使用するため、外れ値の影響を受けにくいです。StandardScaler は平均と標準偏差を使うため外れ値に影響されやすく、MinMaxScaler は外れ値でデータが狭い範囲に圧縮されてしまいます。
Q4. データリーケージ
以下のうち、データリーケージが発生するのはどれですか?
- A: 学習データでスケーラーをフィットし、テストデータに transform のみ適用
- B: 全データでスケーラーをフィットしてから学習/テストに分割
- C: Pipeline を使って交差検証を行う
- D: 学習データのみで欠損値の中央値を計算し補完する
正解: B
解説: 全データでフィットすると、テストデータの情報(平均値、標準偏差など)が学習データの前処理に漏れ込みます。正しくは、学習データのみでフィットし、テストデータには transform のみを適用します。
Q5. 特徴量生成
NetShop の離反予測で、以下の特徴量のうち最もデータリーケージのリスクが高いものはどれですか?
- A: 過去90日間の購入回数
- B: 会員登録からの経過日数
- C: 離反後に送信されたフォローメールへの反応率
- D: 過去30日間のページビュー数
正解: C
解説: 「離反後に送信されたフォローメール」は、離反が発生した後にしか得られない情報です。予測時点(離反前)にはこの情報は存在しないため、特徴量に含めるとデータリーケージになります。
結果
5問中の正解数を確認してください。
- 5問正解: 素晴らしい!特徴量エンジニアリングの基礎をしっかり理解しています。
- 4問正解: 合格です。間違えた問題を復習してから次へ。
- 3問以下: Step 2 のレッスンを再度読み直してから挑戦しましょう。
推定所要時間: 30分