LESSON 30分

メタデータ管理

田中VPoE「データカタログの中身、つまりメタデータをどう管理するかが成否を分ける。メタデータが陳腐化したカタログは誰も信用しない。」

あなた「メタデータって、テーブルのカラム定義のことですか?」

田中VPoE「それは氷山の一角だ。メタデータには3つの種類があって、それぞれ管理方法が違う。詳しく見ていこう。」

メタデータの3つの分類

1. 技術メタデータ(Technical Metadata)

データの物理的な構造に関する情報です。

項目
スキーマテーブル名、カラム名、データ型
格納場所データベース名、スキーマ名
統計情報レコード数、サイズ、パーティション
依存関係上流・下流のテーブル、ETLジョブ

管理方法:自動収集が基本。データベースのシステムカタログやETLツールから定期的に取得します。

2. ビジネスメタデータ(Business Metadata)

データのビジネス上の意味と文脈に関する情報です。

項目
ビジネス定義「売上とは返品を除いた確定売上」
データオーナーマーケティング部 山田さん
利用用途月次レポート、需要予測
データ分類機密、社内限定、公開可

管理方法:人間が入力・メンテナンスする。データオーナーやデータスチュワードが責任を持ちます。

3. 運用メタデータ(Operational Metadata)

データの運用状態に関する情報です。

項目
更新頻度毎日AM6
データ品質NULL率2%、重複率0.1%
アクセスログ月間100件のクエリ
SLA99.5%の可用性

管理方法:自動収集とモニタリング。データパイプラインやログから取得します。

メタデータ管理の設計

メタデータモデル

DataAsset(データ資産)
├── name: string
├── description: string
├── owner: Person
├── classification: enum(PUBLIC, INTERNAL, CONFIDENTIAL, RESTRICTED)
├── tags: string[]
├── schema: Schema
│   └── columns: Column[]
│       ├── name: string
│       ├── type: string
│       ├── description: string
│       ├── nullable: boolean
│       └── pii: boolean
├── lineage: Lineage
│   ├── upstream: DataAsset[]
│   └── downstream: DataAsset[]
├── quality: QualityMetrics
│   ├── completeness: float
│   ├── accuracy: float
│   └── freshness: datetime
└── usage: UsageMetrics
    ├── queryCount: int
    ├── uniqueUsers: int
    └── lastAccessed: datetime

メタデータの収集戦略

種類収集方法頻度責任者
技術メタデータクローラーで自動収集日次データエンジニア
ビジネスメタデータ手動入力+レビュー変更時データオーナー
運用メタデータパイプラインから自動収集リアルタイムデータエンジニア

メタデータの品質管理

メタデータカバレッジ

全てのデータ資産に対して、メタデータがどれだけ付与されているかを測定します。

カバレッジ指標の例:
- テーブル説明の付与率:80%(目標:95%以上)
- カラム説明の付与率:60%(目標:85%以上)
- データオーナーの指定率:90%(目標:100%)
- タグの付与率:70%(目標:90%以上)

メタデータの鮮度

メタデータが最新の状態に保たれているかを監視します。

  • 技術メタデータ:スキーマ変更を24時間以内に反映
  • ビジネスメタデータ:四半期ごとにレビュー
  • 運用メタデータ:リアルタイムまたは日次で更新

データスチュワードの役割

データスチュワードは、メタデータの品質と正確性を維持する責任者です。

  • ビジネスメタデータの入力とレビュー
  • ビジネス用語集のメンテナンス
  • データ品質の問題をエスカレーション
  • データオーナーとの連携

メタデータ管理のベストプラクティス

1. 自動化を最大限に活用する

手動管理は陳腐化の原因です。技術メタデータと運用メタデータは自動収集を基本とします。

2. ビジネスメタデータはワークフローに組み込む

データパイプラインの構築プロセスにビジネスメタデータの入力を組み込みます。

データパイプライン開発フロー:
1. テーブル設計 → カラム説明の記述を必須にする
2. コードレビュー → メタデータの妥当性もチェック
3. デプロイ → カタログへの自動反映

3. ユーザー参加型のメタデータ改善

  • ユーザーがデータ資産に対してコメントやレーティングを付けられるようにする
  • 「このデータは役に立った」「定義がわかりにくい」などのフィードバックを収集
  • 人気のあるデータセットやよくある質問を可視化する

まとめ

項目ポイント
3種類のメタデータ技術・ビジネス・運用
収集方法技術と運用は自動、ビジネスは人間が管理
品質管理カバレッジと鮮度を指標で測定
ベストプラクティス自動化、ワークフロー組込み、ユーザー参加

チェックリスト

  • 3種類のメタデータの違いを説明できる
  • メタデータの収集戦略を設計できる
  • メタデータカバレッジの指標を定義できる
  • データスチュワードの役割を理解している

次のステップへ

メタデータ管理の詳細を学びました。次は、セルフサービスBIの設計と導入について学びましょう。


推定読了時間:30分