モデルモニタリングクイズ
Step 5で学んだモニタリング基礎、ドリフト検出、再学習戦略について理解度を確認しましょう。10問中8問以上の正解で合格です。
Q1. モデル性能劣化の原因
本番環境でMLモデルの性能が劣化する原因として正しくないものはどれですか?
- A: 入力データの分布変化(データドリフト)
- B: 入力と出力の関係の変化(コンセプトドリフト)
- C: モデルのソースコードが自動更新された
- D: 上流システムの仕様変更によるスキーマ変化
正解と解説
正解: C
MLモデルのソースコードは自動更新されません。性能劣化の原因はデータドリフト、コンセプトドリフト、スキーマ変化、データ品質劣化などのデータ起因の問題です。
Q2. PSIの閾値
PSI(Population Stability Index)の値が0.30の場合、どう判断すべきですか?
- A: 安定しており、特に対応は不要
- B: 中程度の変化があり、調査を開始すべき
- C: 大きな変化があり、再学習を検討すべき
- D: PSIは0から1の値しか取らないので0.30は異常値
正解と解説
正解: C
PSI > 0.25は大きな分布変化を示します。再学習の検討が必要です。PSI < 0.1は安定、0.1-0.25は中程度の変化です。なお、PSIは1を超える値も取り得ます。
Q3. データドリフトとコンセプトドリフト
データドリフトとコンセプトドリフトの違いについて正しい説明はどれですか?
- A: データドリフトはP(Y|X)の変化、コンセプトドリフトはP(X)の変化
- B: データドリフトはP(X)の変化、コンセプトドリフトはP(Y|X)の変化
- C: 両者は同じ現象を指す異なる用語
- D: データドリフトはバッチ処理、コンセプトドリフトはリアルタイム処理で発生する
正解と解説
正解: B
データドリフトは入力データの分布P(X)の変化、コンセプトドリフトは入力と出力の関係P(Y|X)の変化です。前者はデータの統計的検定で検出でき、後者は予測精度の低下で検出します。
Q4. モニタリングのレイヤー
モニタリングの4つのレイヤーを下層から順に正しく並べたものはどれですか?
- A: ビジネス → モデル → データ → インフラ
- B: インフラ → データ → モデル → ビジネス
- C: データ → モデル → インフラ → ビジネス
- D: モデル → データ → ビジネス → インフラ
正解と解説
正解: B
下層からインフラ(CPU、レイテンシ)→ データ(分布、欠損率)→ モデル(AUC、F1)→ ビジネス(売上、離脱率)の順です。下層の問題が上層に波及するため、多層的な監視が重要です。
Q5. KS検定
KS検定(Kolmogorov-Smirnov検定)の用途として正しいものはどれですか?
- A: カテゴリ変数の分布変化を検定する
- B: 2つの数値分布が同一かどうかを検定する
- C: モデルの精度が閾値以上かを検定する
- D: 特徴量間の相関を検定する
正解と解説
正解: B
KS検定は2つの連続分布が同一の分布から来ているかを検定するノンパラメトリック手法です。カテゴリ変数にはカイ二乗検定を使います。
Q6. アラート設計
アラート設計の原則として正しくないものはどれですか?
- A: 段階的エスカレーション(Warning → Critical)
- B: 閾値超過1回で即座にアラート発報
- C: アラートを受けて何をすべきかアクションを明確にする
- D: ノイズ抑制のため連続N回の閾値超過で発報
正解と解説
正解: B
1回の閾値超過で即座にアラートを発報するとノイズが多くなり、アラート疲れを引き起こします。連続N回の超過で発報するなどのノイズ抑制が重要です。
Q7. 再学習トリガー
ハイブリッド再学習戦略の説明として正しいものはどれですか?
- A: 定期再学習のみを行う戦略
- B: ドリフト検知時のみ再学習を行う戦略
- C: 定期再学習とイベント駆動再学習を組み合わせた戦略
- D: 人間が手動で再学習を判断する戦略
正解と解説
正解: C
ハイブリッド戦略は、定期的なスケジュール再学習をベースにしつつ、ドリフト検知や精度低下をトリガーとした臨時再学習も行う方式です。バランスの良いアプローチです。
Q8. 再学習データの選択
トレンドが頻繁に変化するドメインで最も適した再学習データの選択方式はどれですか?
- A: 全期間の過去データを使用
- B: スライディングウィンドウ(直近N日間のデータ)
- C: 初期の学習データのみ使用
- D: ランダムサンプリング
正解と解説
正解: B
トレンドが変化するドメインでは、古いデータがノイズになる可能性があるため、スライディングウィンドウで直近のデータのみを使用するのが効果的です。
Q9. チャンピオン/チャレンジャー
チャンピオン/チャレンジャー方式の説明として正しいものはどれですか?
- A: 2つの新モデル同士を比較する方式
- B: 新モデル(チャレンジャー)を現行モデル(チャンピオン)と比較してから入れ替える方式
- C: 最も古いモデルをチャンピオンとして常に使用する方式
- D: A/Bテストの別名
正解と解説
正解: B
チャンピオン/チャレンジャー方式は、新しく学習したモデル(チャレンジャー)を現行の本番モデル(チャンピオン)と比較し、性能が上回った場合にのみ入れ替える安全策です。
Q10. Evidently AI
Evidently AIの主な用途として正しいものはどれですか?
- A: モデルの学習を高速化するライブラリ
- B: データドリフト検出とモデルモニタリングのためのツール
- C: 特徴量エンジニアリングの自動化ツール
- D: モデルのハイパーパラメータ最適化ツール
正解と解説
正解: B
Evidently AIはデータドリフト検出、データ品質チェック、モデル性能モニタリングのためのオープンソースツールです。参照データと本番データを比較してレポートを生成します。
結果
| 正答数 | 判定 |
|---|---|
| 8-10問 | 合格 - Step 6に進みましょう |
| 6-7問 | もう一度レッスンを復習しましょう |
| 5問以下 | Step 5のレッスンを最初から再学習しましょう |
推定所要時間:15分