EXERCISE 90分

ストーリー

田中VPoE
データ品質、リネージ、カタログ、オブザーバビリティ。データガバナンスの4つの柱を学んだ。これらを統合したガバナンス基盤をDataFlow社に設計してもらう
あなた
個別のツールではなく、全体が連携するように設計するということですね
田中VPoE
その通り。品質チェックの結果がカタログに反映され、リネージで影響分析ができ、オブザーバビリティが異常を検知してアラートを発報する。この一連のフローが自動で動く基盤だ
あなた
データチームへの「この数字合ってる?」という質問がゼロになる世界ですね
田中VPoE
それが理想だ。データの信頼性がカタログのスコアとして可視化され、誰でもセルフサービスでデータを信頼して使える基盤を設計してくれ

ミッション概要

項目内容
演習タイトルデータガバナンス基盤の設計
想定時間90分
成果物ガバナンス基盤設計書(品質 + カタログ + オブザーバビリティ統合)

Mission 1: データ品質フレームワークの設計

要件

DataFlow社の主要テーブルに対するデータ品質フレームワークを設計してください。

  1. 主要5テーブルの品質チェック項目を定義する(各テーブル最低5件)
  2. 品質スコアの算出ロジックを設計する
  3. 品質SLAを定義する
解答例

品質チェック項目

テーブルチェック項目種類閾値
slv_ordersorder_id NOT NULL & UNIQUE基本100%
slv_orderstotal_amount >= 0妥当性100%
slv_ordersorder_date <= CURRENT_DATE妥当性100%
slv_ordersレコード数が前日比50%以上ボリューム異常検知
slv_ordersstatus IN (定義値)妥当性100%
slv_customerscustomer_id NOT NULL & UNIQUE基本100%
slv_customersemail NOT NULL完全性99%
slv_customerssegment IN (定義値)妥当性100%
slv_customerscreated_at <= CURRENT_DATE妥当性100%
slv_customersemail形式バリデーション正確性95%

品質SLA

テーブルカテゴリ品質スコアチェック頻度違反時のアクション
Gold(経営ダッシュボード)95点以上毎時Critical アラート
Silver(分析用)90点以上日次High アラート
Bronze(生データ)85点以上日次Medium アラート

Mission 2: データカタログとビジネス用語集

要件

DataFlow社のデータカタログとビジネス用語集を設計してください。

  1. 主要KPI(5つ以上)のビジネス用語定義を作成する
  2. データカタログのツール選定と導入計画を策定する
  3. PIIデータの分類とアクセスポリシーを定義する
解答例

ビジネス用語集

用語定義計算式ソーステーブルオーナー
アクティブユーザー過去30日間に1回以上ログインしたユーザーCOUNT(DISTINCT user_id) WHERE last_login >= today - 30gold.fact_user_activityプロダクト
MRR当月のアクティブサブスクリプション × 月額料金の合計SUM(monthly_price) WHERE status=‘ACTIVE’gold.fact_subscriptionファイナンス
チャーン率月初アクティブのうち月末非アクティブの割合(月初Active - 月末Active) / 月初Activegold.mart_monthly_metricsCS
NRR純収益維持率(期首MRR + 拡大 - 縮小 - 解約) / 期首MRRgold.mart_monthly_metricsファイナンス
LTV顧客生涯価値ARPU / チャーン率gold.customer_ltvマーケティング

PII分類

PIIレベルデータ例アクセス制御Gold層での扱い
メールアドレス、氏名データチーム + CSSHA256ハッシュ化
会社名、所在地データチーム + 営業マスキング(一部表示)
業種、従業員規模全社そのまま利用可

ツール選定

コンポーネントツール理由
データカタログDataHub (OSS)コスト効率、メタデータAPI、BigQuery連携
スキーマレジストリdbt docs + DataHubdbtのdescriptionを自動同期
PII検出Google Cloud DLPBigQueryネイティブ統合

Mission 3: データオブザーバビリティの設計

要件

DataFlow社のデータオブザーバビリティ基盤を設計してください。

  1. 監視対象テーブルと監視項目を定義する
  2. アラート設計(重要度、通知先、対応フロー)を策定する
  3. データインシデント対応プロセスを設計する
  4. データSLAを定義する
解答例

監視設計

テーブル鮮度SLAボリューム監視分布監視
gold.revenue_daily2時間日次レコード数 ±50%net_revenue の3σ異常
gold.fact_user_activity1時間時間次レコード数 ±70%login_count の NULL率
gold.mart_monthly_metrics6時間月次1レコードchurn_rate の値域
silver.slv_orders30分時間次レコード数 ±50%total_amount の分布

データSLA

SLA目標値計測方法
データ鮮度Gold層: 2時間以内最終更新タイムスタンプ監視
MTTD30分以内アラート発報までの時間
MTTR4時間以内インシデントクローズまでの時間
品質スコア95点以上加重平均スコア
パイプライン稼働率99.5%ジョブ成功率

インシデント対応プロセス

  1. 検知: Elementaryがdbt test失敗を検知 → Slack #data-incidents に通知
  2. 影響分析: DataHubのリネージで影響範囲を特定 → ステークホルダーに通知
  3. 修復: データエンジニアが原因調査 → dbtモデル修正 → 再実行
  4. 検証: 品質チェック再実行 → スコア回復を確認
  5. 振り返り: 週次のデータレビューでポストモーテム実施

達成度チェック

観点達成基準
品質フレームワーク主要テーブルの品質チェック項目とSLAが定義されている
カタログビジネス用語集とPII分類が作成されている
オブザーバビリティ監視設計、アラート設計、インシデント対応が設計されている
統合性品質・カタログ・オブザーバビリティが連携する設計になっている

推定所要時間: 90分