Step 3 確認クイズ

不正検知モデル構築に関する確認クイズである。5問中4問以上の正解で合格となる。

Q1. Isolation Forest

Isolation Forestが異常データを検知する原理として正しいものはどれか？

正解: B) 異常データはランダムな分割で素早く孤立（分離）できる

解説: Isolation Forestは「異常データは外れた位置にあるため、少ないランダム分割で孤立できる」という性質を利用する。パスの長さ（分割回数）が短いほど異常度が高い。密度ベースの手法（A）とは異なるアプローチである。

Autoencoderで不正取引を検知する際、正常データのみで学習する理由として最も適切なものはどれか？

正解: B) 正常パターンの復元を学習し、復元できないものを異常とみなすため

解説: Autoencoderは正常データの圧縮・復元パターンを学習する。学習時に見たことのない異常データは復元がうまくいかず、再構成誤差が大きくなる。この誤差を異常スコアとして利用する。

Focal Lossにおいて、gammaパラメータを大きくした場合の効果はどれか？

正解: B) 簡単に分類できるサンプルの損失がより強く抑制される

解説: Focal Lossの(1-p_t)^gammaの項は、予測確率p_tが高い（分類が簡単な）サンプルの損失を抑制する。gammaが大きいほど抑制効果が強まり、モデルは分類が難しいサンプル（境界付近の不正等）に集中して学習する。

不正検知モデルで多段階閾値（BLOCK/REVIEW/MONITOR/APPROVE）を設計する最大のメリットはどれか？

正解: B) リスクレベルに応じた対応アクションを割り当てられる

解説: 多段階閾値により、高リスク取引は自動ブロック、中リスクは人手確認、低リスクはモニタリングと、リスクに応じた対応が可能になる。限られた調査リソースを効率的に配分でき、顧客体験と不正検知のバランスを取れる。

Credit Card Fraud Detectionにおいて、一般的にIsolation ForestよりLightGBM（教師あり）の方がPR-AUCが高くなる主な理由はどれか？

正解: C) LightGBMはラベル情報を活用して不正パターンを直接学習できるから

解説: 教師あり学習はラベル（正常/不正）の情報を直接活用して決定境界を学習するため、ラベルなしのIsolation Forestより一般的に精度が高い。ただし、Isolation Forestはラベルがない状況や未知の不正パターンに対して有利な場合がある。

推定所要時間: 30分