データ品質と可観測性クイズ
Step 5で学んだデータ品質、データ可観測性、データリネージについて理解度を確認しましょう。10問中8問以上の正解で合格です。
Q1. データ品質の次元
データ品質の6つの次元に含まれないものはどれですか?
- A: 完全性(Completeness)
- B: 速度(Speed)
- C: 正確性(Accuracy)
- D: 適時性(Timeliness)
正解と解説
正解: B
データ品質の6つの次元は完全性、正確性、一貫性、適時性、一意性、妥当性です。速度(Speed)はデータ品質の次元ではありません。
Q2. Great Expectations
Great Expectationsの主な役割はどれですか?
- A: データの可視化とダッシュボード作成
- B: 宣言的なルール定義によるデータバリデーション
- C: データの暗号化とセキュリティ管理
- D: データウェアハウスの構築
正解と解説
正解: B
Great Expectationsはデータに対する期待値(Expectation)を宣言的に定義し、自動バリデーションを実行するツールです。
Q3. データ可観測性の柱
データ可観測性の5つの柱に含まれないものはどれですか?
- A: Freshness(鮮度)
- B: Volume(ボリューム)
- C: Performance(パフォーマンス)
- D: Schema(スキーマ)
正解と解説
正解: C
データ可観測性の5つの柱はFreshness、Volume、Schema、Distribution、Lineageです。Performance(パフォーマンス)はアプリケーション可観測性の概念です。
Q4. 品質テスト vs 可観測性
データ品質テストとデータ可観測性の違いとして正しいものはどれですか?
- A: 品質テストは未知の異常も検出できる
- B: 可観測性は宣言的ルールのみを使用する
- C: 品質テストは既知のルール、可観測性は統計的異常検知も含む
- D: 両者は同じ概念の異なる名称
正解と解説
正解: C
データ品質テストは事前に定義したルール(NOT NULL、範囲チェック等)で検証します。データ可観測性はこれに加え、統計的手法による未知の異常検出も含みます。
Q5. データリネージ
「このダッシュボードの数値はどのテーブルから来ているか」を調べるリネージの種類はどれですか?
- A: 下流リネージ
- B: 上流リネージ
- C: カラムレベルリネージ
- D: 水平リネージ
正解と解説
正解: B
上流リネージは結果からソースへ遡る追跡です。「この数字はどこから来た?」という問いに答えます。下流リネージは逆にソースから結果への影響を追跡します。
Q6. 異常検知
z-score = 3.5の場合の適切な対応はどれですか?
- A: 正常範囲なので対応不要
- B: 軽微な変化なので記録のみ
- C: 統計的に異常と判断し、アラートを発報する
- D: z-scoreは3以上にならないため計算エラー
正解と解説
正解: C
z-score > 3は平均から3標準偏差以上離れた値であり、統計的に異常(発生確率0.3%未満)と判断できます。アラートを発報して原因を調査すべきです。
Q7. スキーマ変更
データパイプラインでスキーマ変更検知が重要な理由として正しいものはどれですか?
- A: スキーマ変更は常にデータの改善を意味するため
- B: 上流のスキーマ変更が下流の変換処理を壊す可能性があるため
- C: スキーマは一度定義したら変更してはいけないため
- D: スキーマ変更はセキュリティリスクに直結するため
正解と解説
正解: B
上流テーブルのカラム追加・削除・型変更は、下流の変換処理やテストを壊す可能性があります。事前に検知して影響分析を行うことが重要です。
Q8. データ品質スコア
品質スコアが65の場合の適切な対応はどれですか?
- A: 優秀なので対応不要
- B: 良好なので改善計画を立案する
- C: 要改善として即座に原因調査を開始する
- D: 危険としてパイプラインを停止する
正解と解説
正解: C
品質スコア60-79は「要改善」の判定です。即座に原因を調査し、改善措置を講じる必要があります。60未満になるとパイプライン停止レベルです。
Q9. OpenLineage
OpenLineageの目的として正しいものはどれですか?
- A: データリネージの標準仕様を定義し、異なるツール間でリネージ情報を統合する
- B: データの暗号化方式を標準化する
- C: SQLクエリの実行計画を最適化する
- D: データウェアハウスの接続方式を統一する
正解と解説
正解: A
OpenLineageは、Airflow、Spark、dbt等の異なるツールから生成されるリネージ情報を統一的なフォーマットで収集・統合するための標準仕様です。
Q10. 影響分析
リネージを用いた影響分析が最も有効な場面はどれですか?
- A: 新しいダッシュボードを作成する場合
- B: 上流テーブルのスキーマ変更を計画する場合
- C: データウェアハウスのストレージ容量を最適化する場合
- D: 新しいデータソースを追加する場合
正解と解説
正解: B
上流テーブルのスキーマ変更を行う前に、下流への影響範囲をリネージで特定することで、予期しないパイプラインの破壊を防げます。
結果
| 正答数 | 判定 |
|---|---|
| 8-10問 | 合格 - Step 6に進みましょう |
| 6-7問 | もう一度レッスンを復習しましょう |
| 5問以下 | Step 5のレッスンを最初から再学習しましょう |
推定所要時間:15分