LESSON 30分

データ品質フレームワーク

田中VPoE「ガバナンスの全体像を掴んだ。ここからはその中核であるデータ品質フレームワークを構築しよう。品質基準を定義し、測定し、改善するサイクルを回す仕組みだ。」

あなた「技術的な品質チェックだけでなく、組織として品質を維持する仕組みが必要なんですね。」

田中VPoE「その通り。データ品質は技術問題ではなく、組織の文化の問題でもある。」

データ品質フレームワークの設計

フレームワークの構成

[品質基準の定義] → [測定の自動化] → [レポーティング] → [改善アクション] → (繰り返し)

品質基準の定義(SLA / SLO / SLI)

概念定義
SLI(指標)品質を測定する具体的な指標顧客テーブルのNULL率
SLO(目標)SLIに対する目標値NULL率 < 1%
SLA(合意)SLOを組織間で合意した契約品質スコア80以上を保証

テーブルごとの品質SLO設計例

テーブル次元SLISLO
orders完全性order_id のNULL率< 0.01%
orders適時性最終更新からの経過時間< 2時間
orders正確性amount の範囲内率> 99.9%
customers一意性email の重複率0%
customers妥当性regionの許容値率100%
mart_kpi一貫性前日比変動率< 50%

データ品質ダッシュボード

KPIの設計

KPI計算方法表示形式
全体品質スコア各テーブルのスコアの加重平均スコア(0-100)
SLO達成率達成SLO数 / 全SLO数パーセント
品質インシデント数当月の品質問題の件数件数(月次推移)
平均修復時間インシデント発生から解決までの時間時間(MTTR)

データ品質の組織体制

DQM(Data Quality Management)チーム

役割担当者責任
DQ LeadData Steward品質基準の策定、レポーティング
DQ EngineerData Engineer品質テストの実装、自動化
Domain DQ Rep各部門代表ドメイン固有の品質ルール定義
DQ AnalystDS/アナリスト品質影響の分析、改善提案

品質レビュープロセス

週次:
  - 品質スコアのレビュー
  - 新規インシデントの確認

月次:
  - SLO達成率のレビュー
  - 品質改善計画の進捗確認
  - 新規SLOの追加・既存SLOの調整

四半期:
  - フレームワーク全体の見直し
  - 成熟度評価

データ契約(Data Contract)

データプロデューサーとコンシューマー間の品質合意を明文化します。

# data_contracts/orders_contract.yml
contract:
  name: "orders"
  version: "2.0"
  owner: "sales-team"
  description: "注文データの品質契約"

schema:
  - name: order_id
    type: string
    required: true
    unique: true
  - name: total_amount
    type: numeric
    required: true
    min: 0
    max: 10000000
  - name: status
    type: string
    required: true
    allowed_values: [created, paid, shipped, delivered, cancelled]

sla:
  freshness: "2 hours"
  completeness: "99.9%"
  availability: "99.5%"

consumers:
  - team: "ds-team"
    use_case: "離脱予測モデル"
  - team: "bi-team"
    use_case: "売上ダッシュボード"

まとめ

項目ポイント
SLI/SLO/SLA品質指標、目標値、合意の3層で品質を管理
ダッシュボード品質スコア、SLO達成率、インシデント数を可視化
組織体制DQチームによる継続的な品質改善サイクル
データ契約プロデューサーとコンシューマーの品質合意を明文化

チェックリスト

  • SLI/SLO/SLAの違いを説明できる
  • テーブルごとの品質SLOを設計できる
  • データ品質ダッシュボードのKPIを定義できる
  • データ契約の概念と構成要素を理解している

次のステップへ

データ品質フレームワークを理解しました。次はプライバシーとセキュリティについて学びましょう。


推定読了時間:30分