メタデータ管理
田中VPoE「データカタログの中身、つまりメタデータをどう管理するかが成否を分ける。メタデータが陳腐化したカタログは誰も信用しない。」
あなた「メタデータって、テーブルのカラム定義のことですか?」
田中VPoE「それは氷山の一角だ。メタデータには3つの種類があって、それぞれ管理方法が違う。詳しく見ていこう。」
メタデータの3つの分類
1. 技術メタデータ(Technical Metadata)
データの物理的な構造に関する情報です。
| 項目 | 例 |
|---|---|
| スキーマ | テーブル名、カラム名、データ型 |
| 格納場所 | データベース名、スキーマ名 |
| 統計情報 | レコード数、サイズ、パーティション |
| 依存関係 | 上流・下流のテーブル、ETLジョブ |
管理方法:自動収集が基本。データベースのシステムカタログやETLツールから定期的に取得します。
2. ビジネスメタデータ(Business Metadata)
データのビジネス上の意味と文脈に関する情報です。
| 項目 | 例 |
|---|---|
| ビジネス定義 | 「売上とは返品を除いた確定売上」 |
| データオーナー | マーケティング部 山田さん |
| 利用用途 | 月次レポート、需要予測 |
| データ分類 | 機密、社内限定、公開可 |
管理方法:人間が入力・メンテナンスする。データオーナーやデータスチュワードが責任を持ちます。
3. 運用メタデータ(Operational Metadata)
データの運用状態に関する情報です。
| 項目 | 例 |
|---|---|
| 更新頻度 | 毎日AM6 |
| データ品質 | NULL率2%、重複率0.1% |
| アクセスログ | 月間100件のクエリ |
| SLA | 99.5%の可用性 |
管理方法:自動収集とモニタリング。データパイプラインやログから取得します。
メタデータ管理の設計
メタデータモデル
DataAsset(データ資産)
├── name: string
├── description: string
├── owner: Person
├── classification: enum(PUBLIC, INTERNAL, CONFIDENTIAL, RESTRICTED)
├── tags: string[]
├── schema: Schema
│ └── columns: Column[]
│ ├── name: string
│ ├── type: string
│ ├── description: string
│ ├── nullable: boolean
│ └── pii: boolean
├── lineage: Lineage
│ ├── upstream: DataAsset[]
│ └── downstream: DataAsset[]
├── quality: QualityMetrics
│ ├── completeness: float
│ ├── accuracy: float
│ └── freshness: datetime
└── usage: UsageMetrics
├── queryCount: int
├── uniqueUsers: int
└── lastAccessed: datetime
メタデータの収集戦略
| 種類 | 収集方法 | 頻度 | 責任者 |
|---|---|---|---|
| 技術メタデータ | クローラーで自動収集 | 日次 | データエンジニア |
| ビジネスメタデータ | 手動入力+レビュー | 変更時 | データオーナー |
| 運用メタデータ | パイプラインから自動収集 | リアルタイム | データエンジニア |
メタデータの品質管理
メタデータカバレッジ
全てのデータ資産に対して、メタデータがどれだけ付与されているかを測定します。
カバレッジ指標の例:
- テーブル説明の付与率:80%(目標:95%以上)
- カラム説明の付与率:60%(目標:85%以上)
- データオーナーの指定率:90%(目標:100%)
- タグの付与率:70%(目標:90%以上)
メタデータの鮮度
メタデータが最新の状態に保たれているかを監視します。
- 技術メタデータ:スキーマ変更を24時間以内に反映
- ビジネスメタデータ:四半期ごとにレビュー
- 運用メタデータ:リアルタイムまたは日次で更新
データスチュワードの役割
データスチュワードは、メタデータの品質と正確性を維持する責任者です。
- ビジネスメタデータの入力とレビュー
- ビジネス用語集のメンテナンス
- データ品質の問題をエスカレーション
- データオーナーとの連携
メタデータ管理のベストプラクティス
1. 自動化を最大限に活用する
手動管理は陳腐化の原因です。技術メタデータと運用メタデータは自動収集を基本とします。
2. ビジネスメタデータはワークフローに組み込む
データパイプラインの構築プロセスにビジネスメタデータの入力を組み込みます。
データパイプライン開発フロー:
1. テーブル設計 → カラム説明の記述を必須にする
2. コードレビュー → メタデータの妥当性もチェック
3. デプロイ → カタログへの自動反映
3. ユーザー参加型のメタデータ改善
- ユーザーがデータ資産に対してコメントやレーティングを付けられるようにする
- 「このデータは役に立った」「定義がわかりにくい」などのフィードバックを収集
- 人気のあるデータセットやよくある質問を可視化する
まとめ
| 項目 | ポイント |
|---|---|
| 3種類のメタデータ | 技術・ビジネス・運用 |
| 収集方法 | 技術と運用は自動、ビジネスは人間が管理 |
| 品質管理 | カバレッジと鮮度を指標で測定 |
| ベストプラクティス | 自動化、ワークフロー組込み、ユーザー参加 |
チェックリスト
- 3種類のメタデータの違いを説明できる
- メタデータの収集戦略を設計できる
- メタデータカバレッジの指標を定義できる
- データスチュワードの役割を理解している
次のステップへ
メタデータ管理の詳細を学びました。次は、セルフサービスBIの設計と導入について学びましょう。
推定読了時間:30分