アンサンブルと自動MLクイズ
Step 5 で学んだアンサンブル学習、AutoML、モデル解釈性の知識を確認しましょう。
Q1. Voting
Soft Voting が Hard Voting より一般的に精度が高い理由として正しいものはどれですか?
- A: より多くのモデルを使用するから
- B: 各モデルの予測確率を活用でき、より細かな情報を統合できるから
- C: 学習データをより多く使用するから
- D: 計算コストが低いから
正解: B
解説: Hard Voting は各モデルの最終予測(0 or 1)だけを使いますが、Soft Voting は予測確率(例: 0.72)を使って平均します。確率情報にはモデルの確信度が含まれるため、より精度の高い統合が可能です。
Q2. Stacking
Stacking における第2層(メタモデル)の役割として正しいものはどれですか?
- A: 元のデータから直接特徴量を学習する
- B: 第1層のモデルの予測結果を入力として、最適な統合方法を学習する
- C: 第1層のモデルを再学習させる
- D: 特徴量選択を行う
正解: B
解説: Stacking のメタモデルは、第1層の各ベースモデルの予測結果(確率)を入力特徴量として受け取り、それらをどう組み合わせれば最良の予測になるかを学習します。これにより、単純な平均や多数決より賢い統合が可能になります。
Q3. AutoML
AutoML の適切な活用方法として最も正しいものはどれですか?
- A: AutoML がすべてを自動化するので、機械学習の知識は不要
- B: ベースライン構築やモデル候補の探索に使い、ドメイン知識は人間が補う
- C: AutoML は精度が低いので使うべきではない
- D: AutoML の結果をそのまま本番環境にデプロイする
正解: B
解説: AutoML は効率的にベースラインを構築し、有望なモデル候補を特定するのに優れています。しかし、ドメイン知識に基づく特徴量生成、データ品質の判断、モデルの解釈と説明は人間が行う必要があります。AutoML と手動チューニングの組み合わせが最も効果的です。
Q4. SHAP
SHAP値の解釈として正しいものはどれですか?
- A: SHAP値が正の特徴量だけがモデルに影響する
- B: SHAP値の絶対値が大きいほど、その特徴量が予測に強く影響している
- C: SHAP値はモデルの学習速度を示す
- D: SHAP値は特徴量のデータ品質を評価する
正解: B
解説: SHAP値は各特徴量が個々の予測にどれだけ寄与しているかを示します。正の SHAP値は予測を正の方向に(離反方向に)押し上げ、負の SHAP値は逆方向に押し下げます。絶対値が大きいほど、その特徴量の影響が大きいことを意味します。
Q5. アンサンブルの多様性
アンサンブル学習で多様なモデルを組み合わせることが重要な理由はどれですか?
- A: 計算コストを削減するため
- B: 各モデルの異なる強みで弱点を補完し合い、総合的な精度が向上するため
- C: モデルの学習を高速化するため
- D: 特徴量の数を減らすため
正解: B
解説: アンサンブルの効果は、各モデルが異なるパターンを得意とすることから生まれます。線形モデルは線形パターン、決定木は非線形パターンに強いなど、多様なモデルを組み合わせることで個々のモデルの弱点が補完され、全体としての予測精度が向上します。
結果
5問中の正解数を確認してください。
- 5問正解: 素晴らしい!アンサンブルと AutoML の知識を十分に理解しています。
- 4問正解: 合格です。間違えた問題を復習しましょう。
- 3問以下: Step 5 のレッスンを再度読み直してから挑戦しましょう。
推定所要時間: 15分