モデル評価と改善クイズ
Step 4 で学んだモデル評価と改善の知識を確認しましょう。
Q1. 交差検証
Stratified K-fold 交差検証の特徴として正しいものはどれですか?
- A: データを時系列順に分割する
- B: 各 Fold でクラスの比率を維持する
- C: 学習データの量を各 Fold で変える
- D: テストデータも交差検証に含める
正解: B
解説: Stratified K-fold はクラスの比率を各 Fold で維持する分割方法です。離反率8%のデータなら、各 Fold でも約8%の離反率が保たれます。不均衡データでの評価に特に重要です。
Q2. 閾値調整
離反予測で閾値を0.5から0.3に下げた場合、一般的にどのような変化が起きますか?
- A: 適合率が上がり、再現率が下がる
- B: 再現率が上がり、適合率が下がる
- C: 適合率も再現率も上がる
- D: 適合率も再現率も下がる
正解: B
解説: 閾値を下げると、より多くのデータを「離反」と予測するため、離反者の見逃し(FN)が減り再現率が上がります。一方で、実際には離反しない顧客も離反と予測される(FP増加)ため、適合率は下がります。
Q3. Early Stopping
Early Stopping の目的として最も正しいものはどれですか?
- A: 学習データの量を減らして高速化する
- B: 検証データのスコアが改善しなくなった時点で学習を止め、過学習を防ぐ
- C: 特徴量の数を自動的に減らす
- D: 学習率を自動的に調整する
正解: B
解説: Early Stopping は、学習の各イテレーションで検証データのスコアを監視し、一定回数(patience)改善が見られなくなったら学習を停止します。これにより、モデルが学習データに過度に適合する前に学習を止められます。
Q4. ハイパーパラメータ最適化
以下のうち、ベイジアン最適化(Optuna等)の特徴として正しいものはどれですか?
- A: すべてのパラメータ組み合わせを網羅的に試す
- B: 完全にランダムにパラメータをサンプリングする
- C: 過去の試行結果を活用して、有望なパラメータ領域を効率的に探索する
- D: パラメータの数が少ない場合にのみ使用できる
正解: C
解説: ベイジアン最適化は、過去の試行結果から目的関数の分布を推定し、次に試すべきパラメータを賢く選択します。GridSearch(網羅的)やRandomSearch(ランダム)より効率的にパラメータ空間を探索でき、少ない試行回数で良い結果が得られます。
Q5. 過学習対策
以下のモデルの評価結果に対して、最も効果的な対策はどれですか?
学習F1: 0.95, 検証F1: 0.70(ギャップ: 0.25)
特徴量数: 50, データ数: 500
- A: n_estimators をさらに増やす
- B: 特徴量を削減し、正則化を強化する
- C: 閾値を調整する
- D: 学習率を上げる
正解: B
解説: 学習と検証のギャップが0.25と非常に大きく、重度の過学習です。データ数500に対して特徴量50は多すぎるため、特徴量を削減し、正則化を強化してモデルの複雑度を下げるべきです。n_estimators増加や学習率増加は過学習を悪化させ、閾値調整は過学習の根本的な解決にはなりません。
結果
5問中の正解数を確認してください。
- 5問正解: 素晴らしい!モデル評価と改善の基礎をしっかり理解しています。
- 4問正解: 合格です。間違えた問題を復習しましょう。
- 3問以下: Step 4 のレッスンを再度読み直してから挑戦しましょう。
推定所要時間: 30分