Step 3 確認クイズ
不正検知モデル構築に関する確認クイズである。5問中4問以上の正解で合格となる。
Q1. Isolation Forest
Isolation Forestが異常データを検知する原理として正しいものはどれか?
- A) 異常データは密度が高いため、近傍のサンプル数が多い
- B) 異常データはランダムな分割で素早く孤立(分離)できる
- C) 異常データは主成分分析で第1主成分に集中する
- D) 異常データはクラスタリングで最大のクラスタに属する
正解: B) 異常データはランダムな分割で素早く孤立(分離)できる
解説: Isolation Forestは「異常データは外れた位置にあるため、少ないランダム分割で孤立できる」という性質を利用する。パスの長さ(分割回数)が短いほど異常度が高い。密度ベースの手法(A)とは異なるアプローチである。
Q2. Autoencoderによる異常検知
Autoencoderで不正取引を検知する際、正常データのみで学習する理由として最も適切なものはどれか?
- A) 不正データが少なすぎて学習に使えないから
- B) 正常パターンの復元を学習し、復元できないものを異常とみなすため
- C) 不正データを含めると学習が遅くなるから
- D) 正常データの方が特徴量の分散が大きいから
正解: B) 正常パターンの復元を学習し、復元できないものを異常とみなすため
解説: Autoencoderは正常データの圧縮・復元パターンを学習する。学習時に見たことのない異常データは復元がうまくいかず、再構成誤差が大きくなる。この誤差を異常スコアとして利用する。
Q3. Focal Lossのgammaパラメータ
Focal Lossにおいて、gammaパラメータを大きくした場合の効果はどれか?
- A) 全サンプルの損失が均等に大きくなる
- B) 簡単に分類できるサンプルの損失がより強く抑制される
- C) 学習率が自動的に調整される
- D) 正則化が強くなり過学習が防止される
正解: B) 簡単に分類できるサンプルの損失がより強く抑制される
解説: Focal Lossの(1-p_t)^gammaの項は、予測確率p_tが高い(分類が簡単な)サンプルの損失を抑制する。gammaが大きいほど抑制効果が強まり、モデルは分類が難しいサンプル(境界付近の不正等)に集中して学習する。
Q4. 閾値最適化
不正検知モデルで多段階閾値(BLOCK/REVIEW/MONITOR/APPROVE)を設計する最大のメリットはどれか?
- A) モデルの精度が自動的に向上する
- B) リスクレベルに応じた対応アクションを割り当てられる
- C) 特徴量の数を削減できる
- D) 学習データを増やす効果がある
正解: B) リスクレベルに応じた対応アクションを割り当てられる
解説: 多段階閾値により、高リスク取引は自動ブロック、中リスクは人手確認、低リスクはモニタリングと、リスクに応じた対応が可能になる。限られた調査リソースを効率的に配分でき、顧客体験と不正検知のバランスを取れる。
Q5. モデルの比較
Credit Card Fraud Detectionにおいて、一般的にIsolation ForestよりLightGBM(教師あり)の方がPR-AUCが高くなる主な理由はどれか?
- A) LightGBMの方が計算が高速だから
- B) Isolation Forestはアンサンブル手法ではないから
- C) LightGBMはラベル情報を活用して不正パターンを直接学習できるから
- D) Isolation Forestは特徴量を1つしか使えないから
正解: C) LightGBMはラベル情報を活用して不正パターンを直接学習できるから
解説: 教師あり学習はラベル(正常/不正)の情報を直接活用して決定境界を学習するため、ラベルなしのIsolation Forestより一般的に精度が高い。ただし、Isolation Forestはラベルがない状況や未知の不正パターンに対して有利な場合がある。
結果
- 4問以上正解: 合格。Step 4に進もう。
- 3問以下: Step 3のレッスンを復習してから再挑戦しよう。
推定所要時間: 30分