総合確認クイズ
Month 3「不正取引を検知しリスクを管理しよう」の総合確認クイズである。10問中8問以上の正解(80%以上)で合格となる。
Q1. 不均衡データ
不正率0.17%のデータセットでAccuracy 99.83%を達成したモデルについて、正しい評価はどれか?
- A) 非常に高性能なモデルである
- B) すべてを正常と予測しても達成できるため、Accuracyは不適切な指標
- C) 不正率が低いのでこの精度で十分
- D) Precision 99%以上が保証されている
正解: B) すべてを正常と予測しても達成できるため、Accuracyは不適切な指標
解説: 不正率0.17%のデータでは、全件を正常と予測するだけでAccuracy 99.83%になる。不均衡データではPR-AUC、F1-Score、Recallなどの指標が適切である。
Q2. サンプリング手法
SMOTEの動作原理として正しいものはどれか?
- A) 多数クラスのサンプルをランダムに削除する
- B) 少数クラスのサンプルをそのまま複製する
- C) 少数クラスの近傍サンプル間を補間して新サンプルを合成する
- D) 全サンプルにランダムノイズを加えて拡張する
正解: C) 少数クラスの近傍サンプル間を補間して新サンプルを合成する
解説: SMOTEはk近傍法を使い、少数クラスのサンプルとその近傍サンプルを結ぶ線分上にランダムな新サンプルを合成する。単純なオーバーサンプリングと異なり、過学習のリスクを軽減できる。
Q3. コスト敏感学習
不正1件の見逃しコストが50万円、偽陽性1件の調査コストが2,500円の場合、FNとFPのコスト比率はいくらか?
- A) 1
- B) 1
- C) 200
- D) 20
正解: C) 200
解説: FNコスト
= 500,000,500 = 200。不正の見逃しは偽陽性の200倍のコストがかかるため、モデルの損失関数でこの比率を重みとして設定する。Q4. Isolation Forest
Isolation Forestが異常検知に有効な理由として正しいものはどれか?
- A) 教師あり学習で高精度な分類ができる
- B) 異常データは少ない分割で孤立しやすいという性質を利用する
- C) 正常データの分布を正規分布と仮定する
- D) ニューラルネットワークで特徴量を圧縮する
正解: B) 異常データは少ない分割で孤立しやすいという性質を利用する
解説: Isolation Forestはランダムな特徴量と分割点で木を構築する。異常データは正常データと離れた位置にあるため、少ない分割回数で孤立する。この孤立の容易さ(パス長の短さ)で異常スコアを算出する。
Q5. 閾値最適化
PR曲線でRecallを上げると一般にPrecisionが下がる関係にあるが、不正検知でRecall重視が適切な理由はどれか?
- A) 偽陽性のコストが高いから
- B) 不正の見逃し(FN)コストが偽陽性(FP)コストより圧倒的に高いから
- C) データ量が少ないから
- D) モデルの学習が容易になるから
正解: B) 不正の見逃し(FN)コストが偽陽性(FP)コストより圧倒的に高いから
解説: 不正検知では1件の見逃しが数十万円の損失になる一方、偽陽性は数千円の調査コストで済む。このコスト非対称性から、多少の偽陽性を許容してでも検知率(Recall)を高める方が合理的である。
Q6. Autoencoder
Autoencoderを不正検知に使う際、不正取引が高い再構成誤差を示す理由はどれか?
- A) 不正データで学習しているため
- B) 正常データのパターンのみ学習しており、不正は再構成できないため
- C) 不正データは次元が高いため
- D) Autoencoderは分類モデルだから
正解: B) 正常データのパターンのみ学習しており、不正は再構成できないため
解説: Autoencoderは正常取引のパターンを圧縮・復元する能力を学習する。不正取引は学習時に見ていないパターンのため、うまく再構成できず誤差が大きくなる。この再構成誤差を異常スコアとして活用する。
Q7. エージェント設計
LangGraphベースの不正監視エージェントで、conditional_edgesが最も活用される場面はどれか?
- A) データベースへの接続管理
- B) 不正スコアに応じたアラートレベルの振り分け
- C) モデルのハイパーパラメータ調整
- D) ログの出力形式の制御
正解: B) 不正スコアに応じたアラートレベルの振り分け
解説: conditional_edgesはStateの値に基づいて次のノードを動的に決定する。不正スコアが0.95以上なら即時ブロック、0.80以上なら保留・調査、0.60以上なら監視強化のように、スコアに応じた処理フローの分岐に活用する。
Q8. 偽陽性管理
偽陽性率を85%から45%に削減する際、最も効果的なアプローチの組み合わせはどれか?
- A) 閾値を上げるだけ
- B) 多段階アラート + 顧客リスクプロファイル + ルールフィルタ
- C) データを増やすだけ
- D) モデルを複雑にする
正解: B) 多段階アラート + 顧客リスクプロファイル + ルールフィルタ
解説: 偽陽性削減は単一の手法では限界がある。多段階アラートでスコアに応じた対応、顧客の行動パターンに基づく正常性判定、定期決済などのホワイトリストルールを組み合わせることで、検知率を維持しつつ偽陽性を大幅に削減できる。
Q9. フィードバックループ
不正検知モデルのフィードバックループにおいて、チャージバック情報が重要な理由はどれか?
- A) リアルタイムでラベルが得られるため
- B) 調査員の判断なしに不正ラベルを自動生成できるため
- C) 数週間遅れだが信頼性の高い不正確定情報を提供するため
- D) すべての取引にラベルが付与されるため
正解: C) 数週間遅れだが信頼性の高い不正確定情報を提供するため
解説: チャージバックはカード保有者からの異議申立てに基づく情報であり、不正の確実な証拠となる。リアルタイムではないが(通常2〜4週間の遅延)、信頼性の高いラベルとしてモデル再学習に活用できる。
Q10. 適応学習
不正の新手口に対してモデルを適応させる戦略として、最も適切な組み合わせはどれか?
- A) 全面再学習のみ
- B) ルール追加のみ
- C) オンライン学習 + アンサンブル更新 + 新パターン検知の3層防御
- D) モデルを固定して閾値だけ調整
正解: C) オンライン学習 + アンサンブル更新 + 新パターン検知の3層防御
解説: 新手口への対応は単一手法では不十分。オンライン学習で日々の微調整、アンサンブルに新モデルを追加して多様性を確保、Isolation Forestで未知パターンを検知する3層防御が効果的である。
結果
- 8問以上正解(80%以上): 合格。Month 3「不正取引を検知しリスクを管理しよう」を修了。
- 7問以下: 各Stepのレッスンを復習してから再挑戦しよう。
推定所要時間: 30分