LESSON

Step 2 確認クイズ

不均衡データの分析手法に関する確認クイズである。5問中4問以上の正解で合格となる。


Q1. SMOTEの仕組み

SMOTEのサンプル生成方法として正しいものはどれか?

  • A) 少数クラスのサンプルをそのまま複製する
  • B) 少数クラスのサンプルのk近傍間を補間して合成サンプルを生成する
  • C) 多数クラスのサンプルを少数クラスのラベルに変更する
  • D) ガウスノイズを加えて少数クラスのサンプルを生成する

正解: B) 少数クラスのサンプルのk近傍間を補間して合成サンプルを生成する

解説: SMOTEは少数クラスのサンプルx_iとそのk近傍のサンプルx_nnの間を線形補間し、新たな合成サンプルを生成する。単純な複製(A)はランダムオーバーサンプリングであり、過学習のリスクが高い。


Q2. サンプリングの適用タイミング

サンプリング手法の適用について、最も正しいものはどれか?

  • A) 学習データとテストデータの両方にサンプリングを適用する
  • B) テストデータにのみサンプリングを適用する
  • C) 学習データにのみサンプリングを適用し、テストデータは元の分布を維持する
  • D) データ分割前にサンプリングを適用する

正解: C) 学習データにのみサンプリングを適用し、テストデータは元の分布を維持する

解説: テストデータは実運用時のデータ分布を反映すべきであり、サンプリングを適用してはならない。データ分割前に適用(D)すると、合成データがテストに漏れるデータリークが発生する。


Q3. コスト敏感学習

XGBoostのscale_pos_weightパラメータの説明として正しいものはどれか?

  • A) 全サンプルの重みを一律に増加させる
  • B) 正例(少数クラス)の損失にかける重みを指定する
  • C) 学習率を調整するパラメータである
  • D) 木の深さを制御するパラメータである

正解: B) 正例(少数クラス)の損失にかける重みを指定する

解説: scale_pos_weightは正例の損失に乗じる重みである。不均衡比率(負例数/正例数)を設定することで、少数クラスの誤分類ペナルティを大きくし、モデルが少数クラスを重視するようになる。


Q4. PR-AUC vs ROC-AUC

不正取引検知(不正率0.17%)でPR-AUCがROC-AUCより適切な理由はどれか?

  • A) PR-AUCの方が計算が高速だから
  • B) ROC-AUCは多数クラスのTNが多いと楽観的な値になりやすいから
  • C) PR-AUCは常にROC-AUCより大きい値を返すから
  • D) ROC-AUCは不均衡データでは計算できないから

正解: B) ROC-AUCは多数クラスのTNが多いと楽観的な値になりやすいから

解説: ROC曲線のFPR = FP/(FP+TN)はTNが圧倒的に多いとFPRが低く出る。少数の偽陽性があっても大量のTNで希釈されるため、ROC-AUCは高い値になりやすい。PR曲線のPrecision = TP/(TP+FP)はTNを含まないため、不均衡の影響を正確に反映する。


Q5. ビジネスコスト最適化

FN1件のコストが50,000円、FP1件のコストが500円のとき、コスト最適化の閾値はF1最適化の閾値と比べてどうなる傾向があるか?

  • A) コスト最適化閾値の方が高い(Precision重視)
  • B) コスト最適化閾値の方が低い(Recall重視)
  • C) 両者は常に同じ値になる
  • D) データ量によって傾向が逆転する

正解: B) コスト最適化閾値の方が低い(Recall重視)

解説: FNコストがFPコストの100倍であるため、見逃しを減らすことがコスト削減に直結する。閾値を下げるとRecallが向上(見逃しが減る)する一方、FPが増えるが、FPコストは相対的に安いため、総コストは下がる。F1は対称的な指標のためこの非対称性を反映しない。


結果

  • 4問以上正解: 合格。Step 3に進もう。
  • 3問以下: Step 2のレッスンを復習してから再挑戦しよう。

推定所要時間: 30分