LESSON

Step 3 確認クイズ

不正検知モデル構築に関する確認クイズである。5問中4問以上の正解で合格となる。


Q1. Isolation Forest

Isolation Forestが異常データを検知する原理として正しいものはどれか?

  • A) 異常データは密度が高いため、近傍のサンプル数が多い
  • B) 異常データはランダムな分割で素早く孤立(分離)できる
  • C) 異常データは主成分分析で第1主成分に集中する
  • D) 異常データはクラスタリングで最大のクラスタに属する

正解: B) 異常データはランダムな分割で素早く孤立(分離)できる

解説: Isolation Forestは「異常データは外れた位置にあるため、少ないランダム分割で孤立できる」という性質を利用する。パスの長さ(分割回数)が短いほど異常度が高い。密度ベースの手法(A)とは異なるアプローチである。


Q2. Autoencoderによる異常検知

Autoencoderで不正取引を検知する際、正常データのみで学習する理由として最も適切なものはどれか?

  • A) 不正データが少なすぎて学習に使えないから
  • B) 正常パターンの復元を学習し、復元できないものを異常とみなすため
  • C) 不正データを含めると学習が遅くなるから
  • D) 正常データの方が特徴量の分散が大きいから

正解: B) 正常パターンの復元を学習し、復元できないものを異常とみなすため

解説: Autoencoderは正常データの圧縮・復元パターンを学習する。学習時に見たことのない異常データは復元がうまくいかず、再構成誤差が大きくなる。この誤差を異常スコアとして利用する。


Q3. Focal Lossのgammaパラメータ

Focal Lossにおいて、gammaパラメータを大きくした場合の効果はどれか?

  • A) 全サンプルの損失が均等に大きくなる
  • B) 簡単に分類できるサンプルの損失がより強く抑制される
  • C) 学習率が自動的に調整される
  • D) 正則化が強くなり過学習が防止される

正解: B) 簡単に分類できるサンプルの損失がより強く抑制される

解説: Focal Lossの(1-p_t)^gammaの項は、予測確率p_tが高い(分類が簡単な)サンプルの損失を抑制する。gammaが大きいほど抑制効果が強まり、モデルは分類が難しいサンプル(境界付近の不正等)に集中して学習する。


Q4. 閾値最適化

不正検知モデルで多段階閾値(BLOCK/REVIEW/MONITOR/APPROVE)を設計する最大のメリットはどれか?

  • A) モデルの精度が自動的に向上する
  • B) リスクレベルに応じた対応アクションを割り当てられる
  • C) 特徴量の数を削減できる
  • D) 学習データを増やす効果がある

正解: B) リスクレベルに応じた対応アクションを割り当てられる

解説: 多段階閾値により、高リスク取引は自動ブロック、中リスクは人手確認、低リスクはモニタリングと、リスクに応じた対応が可能になる。限られた調査リソースを効率的に配分でき、顧客体験と不正検知のバランスを取れる。


Q5. モデルの比較

Credit Card Fraud Detectionにおいて、一般的にIsolation ForestよりLightGBM(教師あり)の方がPR-AUCが高くなる主な理由はどれか?

  • A) LightGBMの方が計算が高速だから
  • B) Isolation Forestはアンサンブル手法ではないから
  • C) LightGBMはラベル情報を活用して不正パターンを直接学習できるから
  • D) Isolation Forestは特徴量を1つしか使えないから

正解: C) LightGBMはラベル情報を活用して不正パターンを直接学習できるから

解説: 教師あり学習はラベル(正常/不正)の情報を直接活用して決定境界を学習するため、ラベルなしのIsolation Forestより一般的に精度が高い。ただし、Isolation Forestはラベルがない状況や未知の不正パターンに対して有利な場合がある。


結果

  • 4問以上正解: 合格。Step 4に進もう。
  • 3問以下: Step 3のレッスンを復習してから再挑戦しよう。

推定所要時間: 30分