データ品質フレームワーク
田中VPoE「ガバナンスの全体像を掴んだ。ここからはその中核であるデータ品質フレームワークを構築しよう。品質基準を定義し、測定し、改善するサイクルを回す仕組みだ。」
あなた「技術的な品質チェックだけでなく、組織として品質を維持する仕組みが必要なんですね。」
田中VPoE「その通り。データ品質は技術問題ではなく、組織の文化の問題でもある。」
データ品質フレームワークの設計
フレームワークの構成
[品質基準の定義] → [測定の自動化] → [レポーティング] → [改善アクション] → (繰り返し)
品質基準の定義(SLA / SLO / SLI)
| 概念 | 定義 | 例 |
|---|---|---|
| SLI(指標) | 品質を測定する具体的な指標 | 顧客テーブルのNULL率 |
| SLO(目標) | SLIに対する目標値 | NULL率 < 1% |
| SLA(合意) | SLOを組織間で合意した契約 | 品質スコア80以上を保証 |
テーブルごとの品質SLO設計例
| テーブル | 次元 | SLI | SLO |
|---|---|---|---|
| orders | 完全性 | order_id のNULL率 | < 0.01% |
| orders | 適時性 | 最終更新からの経過時間 | < 2時間 |
| orders | 正確性 | amount の範囲内率 | > 99.9% |
| customers | 一意性 | email の重複率 | 0% |
| customers | 妥当性 | regionの許容値率 | 100% |
| mart_kpi | 一貫性 | 前日比変動率 | < 50% |
データ品質ダッシュボード
KPIの設計
| KPI | 計算方法 | 表示形式 |
|---|---|---|
| 全体品質スコア | 各テーブルのスコアの加重平均 | スコア(0-100) |
| SLO達成率 | 達成SLO数 / 全SLO数 | パーセント |
| 品質インシデント数 | 当月の品質問題の件数 | 件数(月次推移) |
| 平均修復時間 | インシデント発生から解決までの時間 | 時間(MTTR) |
データ品質の組織体制
DQM(Data Quality Management)チーム
| 役割 | 担当者 | 責任 |
|---|---|---|
| DQ Lead | Data Steward | 品質基準の策定、レポーティング |
| DQ Engineer | Data Engineer | 品質テストの実装、自動化 |
| Domain DQ Rep | 各部門代表 | ドメイン固有の品質ルール定義 |
| DQ Analyst | DS/アナリスト | 品質影響の分析、改善提案 |
品質レビュープロセス
週次:
- 品質スコアのレビュー
- 新規インシデントの確認
月次:
- SLO達成率のレビュー
- 品質改善計画の進捗確認
- 新規SLOの追加・既存SLOの調整
四半期:
- フレームワーク全体の見直し
- 成熟度評価
データ契約(Data Contract)
データプロデューサーとコンシューマー間の品質合意を明文化します。
# data_contracts/orders_contract.yml
contract:
name: "orders"
version: "2.0"
owner: "sales-team"
description: "注文データの品質契約"
schema:
- name: order_id
type: string
required: true
unique: true
- name: total_amount
type: numeric
required: true
min: 0
max: 10000000
- name: status
type: string
required: true
allowed_values: [created, paid, shipped, delivered, cancelled]
sla:
freshness: "2 hours"
completeness: "99.9%"
availability: "99.5%"
consumers:
- team: "ds-team"
use_case: "離脱予測モデル"
- team: "bi-team"
use_case: "売上ダッシュボード"
まとめ
| 項目 | ポイント |
|---|---|
| SLI/SLO/SLA | 品質指標、目標値、合意の3層で品質を管理 |
| ダッシュボード | 品質スコア、SLO達成率、インシデント数を可視化 |
| 組織体制 | DQチームによる継続的な品質改善サイクル |
| データ契約 | プロデューサーとコンシューマーの品質合意を明文化 |
チェックリスト
- SLI/SLO/SLAの違いを説明できる
- テーブルごとの品質SLOを設計できる
- データ品質ダッシュボードのKPIを定義できる
- データ契約の概念と構成要素を理解している
次のステップへ
データ品質フレームワークを理解しました。次はプライバシーとセキュリティについて学びましょう。
推定読了時間:30分