LESSON

Step 3 クイズ:特徴量ストアを設計しよう

特徴量ストアの概念、Feast、特徴量パイプライン、ガバナンスについて理解度を確認しましょう。


Q1. 特徴量ストアが解決する問題として正しくないものはどれか?

A. Training-Serving Skew(学習と推論での特徴量計算の不一致) B. 特徴量の重複開発 C. モデルのハイパーパラメータ最適化 D. Point-in-Time Correctnessの欠如(データリーク)

答えを見る

正解:C. モデルのハイパーパラメータ最適化

特徴量ストアは特徴量の管理・提供に特化しており、Training-Serving Skew、重複開発、データリークの防止を解決します。ハイパーパラメータ最適化は実験管理やAutoMLの領域であり、特徴量ストアの守備範囲ではありません。


Q2. FeastのOnline StoreとOffline Storeの使い分けとして正しいのはどれか?

A. Online Store はモデル学習用、Offline Store は推論用 B. Online Store はリアルタイム推論用、Offline Store はバッチ学習用 C. Online Store はバッチ処理用、Offline Store はストリーミング用 D. 両方とも同じ用途で、バックエンドだけが異なる

答えを見る

正解:B. Online Store はリアルタイム推論用、Offline Store はバッチ学習用

Online Store(Redis/DynamoDB等)は最新の特徴量をミリ秒のレイテンシで提供し、リアルタイム推論に使用します。Offline Store(S3/BigQuery等)は全履歴データを保持し、Point-in-Time Joinによるバッチ学習データセット作成に使用します。


Q3. Point-in-Time Joinの主な目的はどれか?

A. データの結合を高速化する B. 将来のデータを学習に含めないようにしてデータリークを防ぐ C. 特徴量の欠損値を補完する D. 複数のテーブルを外部結合する

答えを見る

正解:B. 将来のデータを学習に含めないようにしてデータリークを防ぐ

Point-in-Time Joinは、各レコードの時点で利用可能だった特徴量のみを結合する手法です。これにより、学習時に未来の情報が混入する「データリーク」を防止し、本番環境での予測精度と学習時の精度を一致させます。


Q4. バッチ特徴量とストリーミング特徴量の違いとして正しいのはどれか?

A. バッチ特徴量は正確だが、ストリーミング特徴量は近似値である B. バッチ特徴量は定期スケジュールで計算、ストリーミング特徴量はイベント駆動で更新 C. バッチ特徴量はOnline Storeのみ、ストリーミング特徴量はOffline Storeのみに保存 D. 両者に技術的な違いはなく、名前が異なるだけ

答えを見る

正解:B. バッチ特徴量は定期スケジュールで計算、ストリーミング特徴量はイベント駆動で更新

バッチ特徴量は日次や時間次などのスケジュールで計算されます(例:30日間購買回数)。ストリーミング特徴量はイベント発生ごとにリアルタイムで更新されます(例:直近1時間のクリック数)。更新頻度の要件に応じて使い分けます。


Q5. 特徴量ガバナンスにおけるデータリネージの目的として最も適切なのはどれか?

A. 特徴量の計算を高速化する B. 特徴量の出自を追跡し、データソース変更時の影響範囲を特定する C. 特徴量のアクセス権限を管理する D. 特徴量の欠損値を自動補完する

答えを見る

正解:B. 特徴量の出自を追跡し、データソース変更時の影響範囲を特定する

データリネージは、特徴量がどのデータソースからどのような変換を経て生成されたかの経路を記録します。これにより、あるデータソースが変更された際に、影響を受ける特徴量やモデルを即座に特定できます(影響分析)。


結果

5問中何問正解できましたか?

正解数評価
5問素晴らしい!Step 4に進みましょう
3-4問良い調子です。間違えた部分を復習しましょう
1-2問Step 3のレッスンをもう一度確認しましょう
0問基礎から丁寧に見直しましょう

推定所要時間:30分