分類・回帰モデルクイズ
Step 3 で学んだモデル構築の知識を確認しましょう。
Q1. ロジスティック回帰の正則化
L1正則化(Lasso)の特徴として正しいものはどれですか?
- A: すべての係数を均等に小さくする
- B: 不要な特徴量の係数を0にする効果がある
- C: 正則化パラメータ C が大きいほど強い正則化になる
- D: スケーリングなしで使用できる
正解: B
解説: L1正則化は係数の絶対値にペナルティを加えるため、不要な特徴量の係数を完全に0にする効果があります(スパース化)。これにより自動的に特徴量選択が行われます。L2正則化(Ridge)はすべての係数を均等に小さくします。
Q2. ランダムフォレスト
ランダムフォレストが単一の決定木より精度が高い主な理由はどれですか?
- A: 1本の木をより深くまで成長させるから
- B: バギングと特徴量のランダム化で多様な木を作り、バリアンスを削減するから
- C: 決定木とは全く異なるアルゴリズムを使うから
- D: データ量を自動的に増やすから
正解: B
解説: ランダムフォレストは、ブートストラップサンプリング(バギング)で異なるデータサブセットから木を構築し、各分割で特徴量のサブセットを使うことで木の多様性を確保します。複数の多様な木の予測を平均化することで、個々の木のバリアンス(ノイズへの過敏さ)を削減します。
Q3. 勾配ブースティング
勾配ブースティングにおける learning_rate(学習率)の役割として正しいものはどれですか?
- A: データの学習量を制御する(大きいほど多くのデータを使う)
- B: 各ステップの貢献度を制御する(小さいほど慎重に学習する)
- C: 特徴量の数を制御する
- D: 決定木の深さを制御する
正解: B
解説: learning_rate は各ステップ(各決定木)の予測に掛ける重みです。小さい値にすると各木の貢献が小さくなり、より多くの木が必要になりますが、過学習を防ぎやすくなります。一般的に learning_rate を小さくする場合は n_estimators を増やします。
Q4. バイアス-バリアンストレードオフ
以下のモデルのうち、最もバリアンスが高い(過学習しやすい)のはどれですか?
- A: max_depth=3 のロジスティック回帰
- B: max_depth=None の決定木(制限なし)
- C: n_estimators=100 のランダムフォレスト
- D: learning_rate=0.01 の LightGBM
正解: B
解説: 深さの制限がない決定木は、学習データを完全に暗記するまで成長するため、バリアンスが最も高くなります。ランダムフォレストや勾配ブースティングはアンサンブル効果でバリアンスを抑制しています。
Q5. モデル選定
以下の比較結果から、実務での離反予測に最も適したモデルの選び方として正しいものはどれですか?
| モデル | F1スコア | 学習時間 | 解釈性 |
|---|---|---|---|
| ロジスティック回帰 | 0.72 | 1秒 | 高 |
| ランダムフォレスト | 0.80 | 10秒 | 中 |
| LightGBM | 0.82 | 5秒 | 低 |
- A: F1スコアが最も高い LightGBM を無条件に選ぶ
- B: 解釈性が最も高いロジスティック回帰を選ぶ
- C: ビジネス要件(精度/解釈性/速度)を考慮して総合的に判断する
- D: 学習時間が最も短いロジスティック回帰を選ぶ
正解: C
解説: モデル選定は精度だけでなく、ビジネス要件を総合的に考慮して判断します。解釈性が求められる場面ではロジスティック回帰が適し、精度が最優先なら LightGBM が適切です。この例では F1 の差が0.02と小さいため、SHAP等で解釈性を補えるなら LightGBM、補えないならランダムフォレストも有力な選択肢です。
結果
5問中の正解数を確認してください。
- 5問正解: 素晴らしい!モデル構築の基礎をしっかり理解しています。
- 4問正解: 合格です。間違えた問題を復習しましょう。
- 3問以下: Step 3 のレッスンを再度読み直してから挑戦しましょう。
推定所要時間: 30分