総合クイズ
Month 2 で学んだ機械学習モデル構築の知識を総合的に確認します。10問中8問以上の正解で合格です。
Q1. 機械学習の基礎
NetShop の「顧客が来月いくら購入するかを予測する」タスクは、以下のどれに分類されますか?
- A: 二値分類
- B: 多クラス分類
- C: 回帰
- D: クラスタリング
正解: C
解説: 購入金額は連続的な数値なので、回帰問題に分類されます。二値分類は離反する/しないのようなカテゴリ予測、クラスタリングは教師なし学習のグループ分けです。
Q2. データ分割
交差検証で前処理を行う際、正しい方法はどれですか?
- A: 全データでスケーリングした後に交差検証を行う
- B: Pipeline に前処理を含め、各 Fold 内でフィット/変換する
- C: テストデータのみでスケーリングする
- D: 前処理は交差検証とは無関係に行う
正解: B
解説: Pipeline に前処理を含めることで、交差検証の各 Fold 内で学習データのみを使ってスケーラーがフィットされ、検証データには transform のみが適用されます。これによりデータリーケージを防ぎます。
Q3. 特徴量エンジニアリング
EC サイトの離反予測で、以下の特徴量のうち最もデータリーケージのリスクが高いものはどれですか?
- A: 過去90日間の購入回数
- B: 会員登録からの経過日数
- C: 離反後の退会理由アンケート結果
- D: 直近30日のログイン回数
正解: C
解説: 退会理由アンケートは離反が発生した後にしか取得できない情報であり、予測時点では存在しません。これを特徴量に含めると、未来の情報を使ったデータリーケージが発生します。
Q4. スケーリング
以下のモデルのうち、特徴量のスケーリングが不要なものはどれですか?
- A: ロジスティック回帰
- B: SVM
- C: LightGBM
- D: K近傍法(KNN)
正解: C
解説: LightGBM は決定木ベースのモデルであり、分割点で判断するためスケールに依存しません。ロジスティック回帰やSVMは勾配降下法、KNNは距離計算を使うため、スケーリングが必要です。
Q5. モデル評価
離反率5%のデータで、あるモデルが以下の結果を出しました。このモデルの最大の問題は何ですか?
正解率: 95%, 適合率: 0%, 再現率: 0%, F1スコア: 0%
- A: 過学習している
- B: すべての顧客を「離反しない」と予測している
- C: モデルの学習が収束していない
- D: テストデータが不適切
正解: B
解説: 離反率5%のデータで「全員離反しない」と予測すると正解率95%になりますが、1人も離反者を見つけられないため適合率・再現率・F1スコアはすべて0%になります。不均衡データでは正解率だけでの評価は危険です。
Q6. 正則化
L1正則化とL2正則化の違いとして正しいものはどれですか?
- A: L1はすべての係数を均等に縮小し、L2は一部を0にする
- B: L1は一部の係数を0にする効果があり、L2はすべての係数を均等に縮小する
- C: L1とL2は同じ効果を持つ
- D: L1は回帰専用、L2は分類専用
正解: B
解説: L1正則化(Lasso)は係数の絶対値にペナルティを加え、不要な特徴量の係数を完全に0にします(スパース化・特徴量選択効果)。L2正則化(Ridge)は係数の二乗にペナルティを加え、すべての係数を均等に小さくします。
Q7. 勾配ブースティング
LightGBM と XGBoost の主な違いとして正しいものはどれですか?
- A: LightGBM は決定木を使わない
- B: LightGBM は Leaf-wise 成長で高速、XGBoost は Level-wise 成長
- C: XGBoost は Python でのみ使える
- D: LightGBM はアンサンブル手法ではない
正解: B
解説: LightGBM は Leaf-wise(誤差が最も大きいリーフを優先的に分割)方式で高速に学習します。一方、XGBoost は Level-wise(同じ深さのノードを一斉に分割)方式です。LightGBM は大規模データでの速度優位性があります。
Q8. ハイパーパラメータ最適化
Optuna(ベイジアン最適化)が GridSearch より効率的な理由はどれですか?
- A: パラメータの組み合わせを完全に網羅するから
- B: 過去の試行結果を活用して有望な領域を集中的に探索するから
- C: 常にランダムにサンプリングするから
- D: 計算リソースを使わないから
正解: B
解説: Optuna はベイジアン最適化により、過去の試行結果から目的関数の分布を推定し、次に試すべきパラメータを賢く選択します。これにより、GridSearch のような網羅的探索に比べて、少ない試行回数で良い結果を得られます。
Q9. アンサンブル学習
Stacking で第1層の予測を交差検証で生成する理由はどれですか?
- A: 計算速度を向上させるため
- B: 第1層のモデルの予測がデータリーケージしないようにするため
- C: メタモデルの学習を不要にするため
- D: 特徴量の数を減らすため
正解: B
解説: 第1層のモデルが学習データで学習し、同じデータで予測すると、その予測は過度に楽観的になります。交差検証を使うことで、各データ点に対して「そのデータを学習に使っていないモデル」の予測を使うため、データリーケージを防ぎます。
Q10. モデル解釈性
SHAP を使ったモデル解釈の利点として最も適切なものはどれですか?
- A: モデルの学習速度を向上させる
- B: 特徴量ごとの予測への寄与度を定量的に示し、予測の根拠を説明できる
- C: モデルの精度を自動的に改善する
- D: データの欠損値を自動的に補完する
正解: B
解説: SHAP はゲーム理論に基づいて、各特徴量が個々の予測にどれだけ寄与しているかを定量的に算出します。これにより、「なぜこの顧客が離反すると予測されたか」を具体的な数値で説明でき、ビジネス側への説明や施策立案に活用できます。
結果
10問中の正解数を確認してください。
- 10問正解: 素晴らしい!機械学習モデル構築の知識を完全に理解しています。
- 8-9問正解: 合格です。Month 3 に進みましょう。
- 6-7問正解: あと少しです。間違えた問題の Step を復習してください。
- 5問以下: Month 2 の各 Step を再度学習してから挑戦しましょう。
合格基準: 8問以上正解(80%)
推定所要時間: 30分