Step 2 確認クイズ

不均衡データの分析手法に関する確認クイズである。5問中4問以上の正解で合格となる。

Q1. SMOTEの仕組み

SMOTEのサンプル生成方法として正しいものはどれか？

正解: B) 少数クラスのサンプルのk近傍間を補間して合成サンプルを生成する

解説: SMOTEは少数クラスのサンプルx_iとそのk近傍のサンプルx_nnの間を線形補間し、新たな合成サンプルを生成する。単純な複製（A）はランダムオーバーサンプリングであり、過学習のリスクが高い。

サンプリング手法の適用について、最も正しいものはどれか？

正解: C) 学習データにのみサンプリングを適用し、テストデータは元の分布を維持する

解説: テストデータは実運用時のデータ分布を反映すべきであり、サンプリングを適用してはならない。データ分割前に適用（D）すると、合成データがテストに漏れるデータリークが発生する。

XGBoostのscale_pos_weightパラメータの説明として正しいものはどれか？

正解: B) 正例（少数クラス）の損失にかける重みを指定する

解説: scale_pos_weightは正例の損失に乗じる重みである。不均衡比率（負例数/正例数）を設定することで、少数クラスの誤分類ペナルティを大きくし、モデルが少数クラスを重視するようになる。

不正取引検知（不正率0.17%）でPR-AUCがROC-AUCより適切な理由はどれか？

正解: B) ROC-AUCは多数クラスのTNが多いと楽観的な値になりやすいから

解説: ROC曲線のFPR = FP/(FP+TN)はTNが圧倒的に多いとFPRが低く出る。少数の偽陽性があっても大量のTNで希釈されるため、ROC-AUCは高い値になりやすい。PR曲線のPrecision = TP/(TP+FP)はTNを含まないため、不均衡の影響を正確に反映する。

FN1件のコストが50,000円、FP1件のコストが500円のとき、コスト最適化の閾値はF1最適化の閾値と比べてどうなる傾向があるか？

正解: B) コスト最適化閾値の方が低い（Recall重視）

解説: FNコストがFPコストの100倍であるため、見逃しを減らすことがコスト削減に直結する。閾値を下げるとRecallが向上（見逃しが減る）する一方、FPが増えるが、FPコストは相対的に安いため、総コストは下がる。F1は対称的な指標のためこの非対称性を反映しない。

推定所要時間: 30分