QUIZ 15分

データ品質と可観測性クイズ

Step 5で学んだデータ品質、データ可観測性、データリネージについて理解度を確認しましょう。10問中8問以上の正解で合格です。


Q1. データ品質の次元

データ品質の6つの次元に含まれないものはどれですか?

  • A: 完全性(Completeness)
  • B: 速度(Speed)
  • C: 正確性(Accuracy)
  • D: 適時性(Timeliness)
正解と解説

正解: B

データ品質の6つの次元は完全性、正確性、一貫性、適時性、一意性、妥当性です。速度(Speed)はデータ品質の次元ではありません。


Q2. Great Expectations

Great Expectationsの主な役割はどれですか?

  • A: データの可視化とダッシュボード作成
  • B: 宣言的なルール定義によるデータバリデーション
  • C: データの暗号化とセキュリティ管理
  • D: データウェアハウスの構築
正解と解説

正解: B

Great Expectationsはデータに対する期待値(Expectation)を宣言的に定義し、自動バリデーションを実行するツールです。


Q3. データ可観測性の柱

データ可観測性の5つの柱に含まれないものはどれですか?

  • A: Freshness(鮮度)
  • B: Volume(ボリューム)
  • C: Performance(パフォーマンス)
  • D: Schema(スキーマ)
正解と解説

正解: C

データ可観測性の5つの柱はFreshness、Volume、Schema、Distribution、Lineageです。Performance(パフォーマンス)はアプリケーション可観測性の概念です。


Q4. 品質テスト vs 可観測性

データ品質テストとデータ可観測性の違いとして正しいものはどれですか?

  • A: 品質テストは未知の異常も検出できる
  • B: 可観測性は宣言的ルールのみを使用する
  • C: 品質テストは既知のルール、可観測性は統計的異常検知も含む
  • D: 両者は同じ概念の異なる名称
正解と解説

正解: C

データ品質テストは事前に定義したルール(NOT NULL、範囲チェック等)で検証します。データ可観測性はこれに加え、統計的手法による未知の異常検出も含みます。


Q5. データリネージ

「このダッシュボードの数値はどのテーブルから来ているか」を調べるリネージの種類はどれですか?

  • A: 下流リネージ
  • B: 上流リネージ
  • C: カラムレベルリネージ
  • D: 水平リネージ
正解と解説

正解: B

上流リネージは結果からソースへ遡る追跡です。「この数字はどこから来た?」という問いに答えます。下流リネージは逆にソースから結果への影響を追跡します。


Q6. 異常検知

z-score = 3.5の場合の適切な対応はどれですか?

  • A: 正常範囲なので対応不要
  • B: 軽微な変化なので記録のみ
  • C: 統計的に異常と判断し、アラートを発報する
  • D: z-scoreは3以上にならないため計算エラー
正解と解説

正解: C

z-score > 3は平均から3標準偏差以上離れた値であり、統計的に異常(発生確率0.3%未満)と判断できます。アラートを発報して原因を調査すべきです。


Q7. スキーマ変更

データパイプラインでスキーマ変更検知が重要な理由として正しいものはどれですか?

  • A: スキーマ変更は常にデータの改善を意味するため
  • B: 上流のスキーマ変更が下流の変換処理を壊す可能性があるため
  • C: スキーマは一度定義したら変更してはいけないため
  • D: スキーマ変更はセキュリティリスクに直結するため
正解と解説

正解: B

上流テーブルのカラム追加・削除・型変更は、下流の変換処理やテストを壊す可能性があります。事前に検知して影響分析を行うことが重要です。


Q8. データ品質スコア

品質スコアが65の場合の適切な対応はどれですか?

  • A: 優秀なので対応不要
  • B: 良好なので改善計画を立案する
  • C: 要改善として即座に原因調査を開始する
  • D: 危険としてパイプラインを停止する
正解と解説

正解: C

品質スコア60-79は「要改善」の判定です。即座に原因を調査し、改善措置を講じる必要があります。60未満になるとパイプライン停止レベルです。


Q9. OpenLineage

OpenLineageの目的として正しいものはどれですか?

  • A: データリネージの標準仕様を定義し、異なるツール間でリネージ情報を統合する
  • B: データの暗号化方式を標準化する
  • C: SQLクエリの実行計画を最適化する
  • D: データウェアハウスの接続方式を統一する
正解と解説

正解: A

OpenLineageは、Airflow、Spark、dbt等の異なるツールから生成されるリネージ情報を統一的なフォーマットで収集・統合するための標準仕様です。


Q10. 影響分析

リネージを用いた影響分析が最も有効な場面はどれですか?

  • A: 新しいダッシュボードを作成する場合
  • B: 上流テーブルのスキーマ変更を計画する場合
  • C: データウェアハウスのストレージ容量を最適化する場合
  • D: 新しいデータソースを追加する場合
正解と解説

正解: B

上流テーブルのスキーマ変更を行う前に、下流への影響範囲をリネージで特定することで、予期しないパイプラインの破壊を防げます。


結果

正答数判定
8-10問合格 - Step 6に進みましょう
6-7問もう一度レッスンを復習しましょう
5問以下Step 5のレッスンを最初から再学習しましょう

推定所要時間:15分