Step 2 確認クイズ
不均衡データの分析手法に関する確認クイズである。5問中4問以上の正解で合格となる。
Q1. SMOTEの仕組み
SMOTEのサンプル生成方法として正しいものはどれか?
- A) 少数クラスのサンプルをそのまま複製する
- B) 少数クラスのサンプルのk近傍間を補間して合成サンプルを生成する
- C) 多数クラスのサンプルを少数クラスのラベルに変更する
- D) ガウスノイズを加えて少数クラスのサンプルを生成する
正解: B) 少数クラスのサンプルのk近傍間を補間して合成サンプルを生成する
解説: SMOTEは少数クラスのサンプルx_iとそのk近傍のサンプルx_nnの間を線形補間し、新たな合成サンプルを生成する。単純な複製(A)はランダムオーバーサンプリングであり、過学習のリスクが高い。
Q2. サンプリングの適用タイミング
サンプリング手法の適用について、最も正しいものはどれか?
- A) 学習データとテストデータの両方にサンプリングを適用する
- B) テストデータにのみサンプリングを適用する
- C) 学習データにのみサンプリングを適用し、テストデータは元の分布を維持する
- D) データ分割前にサンプリングを適用する
正解: C) 学習データにのみサンプリングを適用し、テストデータは元の分布を維持する
解説: テストデータは実運用時のデータ分布を反映すべきであり、サンプリングを適用してはならない。データ分割前に適用(D)すると、合成データがテストに漏れるデータリークが発生する。
Q3. コスト敏感学習
XGBoostのscale_pos_weightパラメータの説明として正しいものはどれか?
- A) 全サンプルの重みを一律に増加させる
- B) 正例(少数クラス)の損失にかける重みを指定する
- C) 学習率を調整するパラメータである
- D) 木の深さを制御するパラメータである
正解: B) 正例(少数クラス)の損失にかける重みを指定する
解説: scale_pos_weightは正例の損失に乗じる重みである。不均衡比率(負例数/正例数)を設定することで、少数クラスの誤分類ペナルティを大きくし、モデルが少数クラスを重視するようになる。
Q4. PR-AUC vs ROC-AUC
不正取引検知(不正率0.17%)でPR-AUCがROC-AUCより適切な理由はどれか?
- A) PR-AUCの方が計算が高速だから
- B) ROC-AUCは多数クラスのTNが多いと楽観的な値になりやすいから
- C) PR-AUCは常にROC-AUCより大きい値を返すから
- D) ROC-AUCは不均衡データでは計算できないから
正解: B) ROC-AUCは多数クラスのTNが多いと楽観的な値になりやすいから
解説: ROC曲線のFPR = FP/(FP+TN)はTNが圧倒的に多いとFPRが低く出る。少数の偽陽性があっても大量のTNで希釈されるため、ROC-AUCは高い値になりやすい。PR曲線のPrecision = TP/(TP+FP)はTNを含まないため、不均衡の影響を正確に反映する。
Q5. ビジネスコスト最適化
FN1件のコストが50,000円、FP1件のコストが500円のとき、コスト最適化の閾値はF1最適化の閾値と比べてどうなる傾向があるか?
- A) コスト最適化閾値の方が高い(Precision重視)
- B) コスト最適化閾値の方が低い(Recall重視)
- C) 両者は常に同じ値になる
- D) データ量によって傾向が逆転する
正解: B) コスト最適化閾値の方が低い(Recall重視)
解説: FNコストがFPコストの100倍であるため、見逃しを減らすことがコスト削減に直結する。閾値を下げるとRecallが向上(見逃しが減る)する一方、FPが増えるが、FPコストは相対的に安いため、総コストは下がる。F1は対称的な指標のためこの非対称性を反映しない。
結果
- 4問以上正解: 合格。Step 3に進もう。
- 3問以下: Step 2のレッスンを復習してから再挑戦しよう。
推定所要時間: 30分