LESSON

モデル評価と改善クイズ

Step 4 で学んだモデル評価と改善の知識を確認しましょう。


Q1. 交差検証

Stratified K-fold 交差検証の特徴として正しいものはどれですか?

  • A: データを時系列順に分割する
  • B: 各 Fold でクラスの比率を維持する
  • C: 学習データの量を各 Fold で変える
  • D: テストデータも交差検証に含める

正解: B

解説: Stratified K-fold はクラスの比率を各 Fold で維持する分割方法です。離反率8%のデータなら、各 Fold でも約8%の離反率が保たれます。不均衡データでの評価に特に重要です。


Q2. 閾値調整

離反予測で閾値を0.5から0.3に下げた場合、一般的にどのような変化が起きますか?

  • A: 適合率が上がり、再現率が下がる
  • B: 再現率が上がり、適合率が下がる
  • C: 適合率も再現率も上がる
  • D: 適合率も再現率も下がる

正解: B

解説: 閾値を下げると、より多くのデータを「離反」と予測するため、離反者の見逃し(FN)が減り再現率が上がります。一方で、実際には離反しない顧客も離反と予測される(FP増加)ため、適合率は下がります。


Q3. Early Stopping

Early Stopping の目的として最も正しいものはどれですか?

  • A: 学習データの量を減らして高速化する
  • B: 検証データのスコアが改善しなくなった時点で学習を止め、過学習を防ぐ
  • C: 特徴量の数を自動的に減らす
  • D: 学習率を自動的に調整する

正解: B

解説: Early Stopping は、学習の各イテレーションで検証データのスコアを監視し、一定回数(patience)改善が見られなくなったら学習を停止します。これにより、モデルが学習データに過度に適合する前に学習を止められます。


Q4. ハイパーパラメータ最適化

以下のうち、ベイジアン最適化(Optuna等)の特徴として正しいものはどれですか?

  • A: すべてのパラメータ組み合わせを網羅的に試す
  • B: 完全にランダムにパラメータをサンプリングする
  • C: 過去の試行結果を活用して、有望なパラメータ領域を効率的に探索する
  • D: パラメータの数が少ない場合にのみ使用できる

正解: C

解説: ベイジアン最適化は、過去の試行結果から目的関数の分布を推定し、次に試すべきパラメータを賢く選択します。GridSearch(網羅的)やRandomSearch(ランダム)より効率的にパラメータ空間を探索でき、少ない試行回数で良い結果が得られます。


Q5. 過学習対策

以下のモデルの評価結果に対して、最も効果的な対策はどれですか?

学習F1: 0.95, 検証F1: 0.70(ギャップ: 0.25)
特徴量数: 50, データ数: 500
  • A: n_estimators をさらに増やす
  • B: 特徴量を削減し、正則化を強化する
  • C: 閾値を調整する
  • D: 学習率を上げる

正解: B

解説: 学習と検証のギャップが0.25と非常に大きく、重度の過学習です。データ数500に対して特徴量50は多すぎるため、特徴量を削減し、正則化を強化してモデルの複雑度を下げるべきです。n_estimators増加や学習率増加は過学習を悪化させ、閾値調整は過学習の根本的な解決にはなりません。


結果

5問中の正解数を確認してください。

  • 5問正解: 素晴らしい!モデル評価と改善の基礎をしっかり理解しています。
  • 4問正解: 合格です。間違えた問題を復習しましょう。
  • 3問以下: Step 4 のレッスンを再度読み直してから挑戦しましょう。

推定所要時間: 30分