QUIZ 30分

クイズの説明

Step 4「データ品質とガバナンスを確立しよう」の理解度を確認します。データ品質フレームワーク、リネージ、カタログ、オブザーバビリティについて問います。

合格ライン: 80%(5問中4問正解)


問題

Q1. データ品質の次元

以下の品質問題は、データ品質の6次元のうちどれに該当しますか?

注文テーブルのstatusカラムに「COMPLETED」「completed」「Complete」の3種類の表記揺れが存在する。

  • A. 正確性(Accuracy)
  • B. 完全性(Completeness)
  • C. 一貫性(Consistency)
  • D. 妥当性(Validity)
答えを見る

正解: C

表記揺れの問題は一貫性(Consistency)に該当します。同じ意味の値が異なる表記で記録されており、データソース内で整合性が取れていません。Silver層で正規化(例: UPPER(TRIM(status)))することで解決します。正確性(A)は「値自体が間違っている」場合、完全性(B)は「値が欠損している」場合、妥当性(D)は「定義されたルールに違反している」場合に該当します。なお、表記揺れを許容しないポリシーであれば妥当性(D)とも解釈できますが、最も直接的には一貫性の問題です。


Q2. データリネージの活用

PostgreSQLのordersテーブルにカラム「tax_type」が追加された場合、データリネージを使って最初に確認すべきことはどれですか?

  • A. 新しいカラムを使ったダッシュボードを作成する
  • B. ordersテーブルから下流に依存するすべてのテーブルとダッシュボードを特定し、影響範囲を評価する
  • C. ordersテーブルのバックアップを取得する
  • D. 新しいカラムのデータ品質チェックを追加する
答えを見る

正解: B

スキーマ変更時に最初に行うべきことは、リネージを使った影響分析です。ordersテーブルを起点に下流のテーブル(brz_orders → slv_orders → fact_orders → revenue_daily)とそれに依存するダッシュボードを特定し、変更による影響(既存のSELECT *が新カラムを含むか、型の整合性は問題ないか等)を評価します。ダッシュボード作成(A)や品質チェック追加(D)は影響分析の後のステップです。


Q3. ビジネス用語集

「同じ指標なのに数字が違う」問題を解決するためのアプローチとして最も効果的なものはどれですか?

  • A. すべてのSQLクエリを1人のデータエンジニアがレビューする
  • B. ビジネス用語集で指標の公式定義を策定し、データカタログで公開し、dbtモデルで定義を実装する
  • C. 各部門にデータアナリストを配置して独自に集計させる
  • D. BIツールへのアクセスをデータチームに限定する
答えを見る

正解: B

最も効果的なアプローチは、ビジネス用語集(Business Glossary)で指標の公式定義を全社で合意し、データカタログで全員がアクセスできるように公開し、dbtモデルでその定義を唯一の実装として管理することです。これにより、指標の定義が1箇所で管理され、ダッシュボードもdbtモデルを参照するため「同じ指標なのに数字が違う」問題が構造的に解消されます。A(1人レビュー)はスケールしません。C(独自集計)は問題を悪化させます。


Q4. データオブザーバビリティ

以下のデータ異常を最も早く検知できるオブザーバビリティの柱はどれですか?

dbtジョブは正常に完了したが、slv_ordersテーブルのtotal_amountカラムのNULL率が通常の0.1%から25%に急上昇した。

  • A. 鮮度(Freshness)— データの最終更新時刻を監視
  • B. ボリューム(Volume)— レコード数を監視
  • C. スキーマ(Schema)— テーブル構造の変更を監視
  • D. 分布(Distribution)— カラム値の統計的分布を監視
答えを見る

正解: D

この異常は「サイレントデータ障害」の典型例です。ジョブは成功しているため鮮度(A)には問題がなく、レコード数(B)も正常かもしれません。スキーマ(C)も変更されていません。しかし、total_amountカラムのNULL率が0.1%→25%と大幅に変化しており、これは分布(Distribution)の異常として検知できます。Elementaryやre_dataなどのツールは、カラムごとのNULL率や値の分布を統計的に監視し、過去のトレンドから逸脱した場合にアラートを発報します。


Q5. データガバナンスの統合

データガバナンス基盤において、品質チェック結果をデータカタログに統合することの最大のメリットはどれですか?

  • A. カタログのUIが見やすくなる
  • B. データの消費者が品質スコアを確認してからデータを利用でき、信頼性の低いデータによる誤った意思決定を防げる
  • C. データエンジニアの作業が減る
  • D. コンプライアンス監査のコストが下がる
答えを見る

正解: B

品質チェック結果をカタログに統合する最大のメリットは、データの消費者(アナリスト、経営層等)がデータを利用する前に品質スコアを確認できることです。例えば、カタログで「slv_orders: 品質スコア98/100」と表示されていれば信頼して使えますし、「品質スコア72/100: NULL率異常」と表示されていれば注意が必要だと判断できます。これにより「この数字、合ってるの?」という問い合わせが減り、セルフサービス分析が促進されます。


結果

合格(4問以上正解)

Step 4の内容をよく理解しています。データ品質、リネージ、カタログ、オブザーバビリティを統合したガバナンス基盤の設計知識を身につけました。次のStep 5「MLOpsとフィーチャーストアを設計しよう」に進みましょう。

不合格(3問以下正解)

Step 4の内容を復習しましょう。特に以下のポイントを重点的に確認してください:

  • 品質の6次元 — 正確性、完全性、一貫性、適時性、一意性、妥当性の使い分け
  • リネージ — 影響分析と根本原因分析での活用方法
  • カタログ — ビジネス用語集による指標統一
  • オブザーバビリティ — サイレントデータ障害の検知方法

推定所要時間: 30分