特徴量エンジニアリングクイズ

Step 2 で学んだ特徴量エンジニアリングの知識を確認しましょう。

Q1. 特徴量選択手法

以下のうち、ラッパー法（Wrapper Method）に分類されるものはどれですか？

正解: B

解説: RFE（Recursive Feature Elimination）はモデルの精度を評価しながら特徴量を逐次的に削減するラッパー法です。A と D はフィルタ法、C は埋め込み法に分類されます。

「デバイス種別（PC、スマホ、タブレット）」に One-hot Encoding を drop='first' で適用した場合、生成される列数はいくつですか？

正解: B

解説: 3つのカテゴリから drop='first' で1つを落とすため、2列が生成されます（例: スマホ列とタブレット列）。drop='first' は多重共線性（ダミー変数トラップ）を防ぐために使用します。

外れ値が多く含まれるデータに最も適したスケーラーはどれですか？

正解: C

解説: RobustScaler は中央値と四分位範囲（IQR）を使用するため、外れ値の影響を受けにくいです。StandardScaler は平均と標準偏差を使うため外れ値に影響されやすく、MinMaxScaler は外れ値でデータが狭い範囲に圧縮されてしまいます。

以下のうち、データリーケージが発生するのはどれですか？

正解: B

解説: 全データでフィットすると、テストデータの情報（平均値、標準偏差など）が学習データの前処理に漏れ込みます。正しくは、学習データのみでフィットし、テストデータには transform のみを適用します。

NetShop の離反予測で、以下の特徴量のうち最もデータリーケージのリスクが高いものはどれですか？

正解: C

解説: 「離反後に送信されたフォローメール」は、離反が発生した後にしか得られない情報です。予測時点（離反前）にはこの情報は存在しないため、特徴量に含めるとデータリーケージになります。

5問中の正解数を確認してください。

推定所要時間: 30分