LESSON 30分

ストーリー

田中VPoE
オーナーシップ体制が決まったら、次は「メタデータ」だ。データカタログの中核をなすものだ
あなた
メタデータは「データについてのデータ」ですよね。テーブル名やカラムの型とか
田中VPoE
技術的メタデータはその通りだ。しかしメタデータには3種類ある。技術的メタデータ、ビジネスメタデータ、そして運用メタデータだ。これら3つが揃って初めて「データを発見して、理解して、信頼して使える」状態になる
あなた
3つのメタデータを管理するのは大変そうですね
田中VPoE
だからこそ「戦略」が必要だ。全部を手動で管理しようとすると破綻する。自動収集を最大限活用しつつ、人間が付加する価値に集中するのがポイントだ

メタデータの3つの種類

種類と役割

種類内容具体例主な利用者
技術的メタデータデータの物理的な構造情報テーブル名、カラム名、データ型、制約、パーティションデータエンジニア
ビジネスメタデータデータのビジネス上の意味と文脈ビジネス定義、計算ロジック、利用目的、オーナーアナリスト、ビジネスユーザー
運用メタデータデータの運用状態に関する情報更新頻度、最終更新日時、品質スコア、利用頻度データスチュワード

3つのメタデータの関係

メタデータの3層構造:

ビジネスメタデータ(なぜ・何のために)
  │  「月間アクティブユーザー数」
  │  定義: 30日以内にログインした一意のユーザー数
  │  オーナー: プロダクト部長

技術的メタデータ(何が・どこに)
  │  テーブル: analytics.monthly_active_users
  │  カラム: user_id (bigint), last_login (timestamp)
  │  パーティション: month

運用メタデータ(いつ・どのように)
     更新頻度: 日次 03:00 JST
     最終更新: 2026-03-04 03:15:22
     品質スコア: 99.2%
     月間クエリ数: 1,240回

データカタログの構築

データカタログの機能要件

機能説明優先度
検索・発見キーワード、タグ、ドメインでデータを検索最重要
データプロファイリングカラムの統計情報、分布、サンプルデータの表示
リネージデータの流れ(ソース→変換→消費先)の可視化
品質情報品質スコア、最終チェック日時の表示
アクセス管理データへのアクセス権限の確認・申請
コラボレーションコメント、レビュー、ブックマーク
変更通知スキーマ変更やオーナー変更の通知
APIプログラマティックなメタデータの取得・更新

データカタログツールの比較

ツール種別強み弱み
DataHubOSS(LinkedIn)リネージが強力、拡張性が高い導入・運用の技術力が必要
AmundsenOSS(Lyft)検索体験が優れている機能が限定的
Apache AtlasOSS(Hortonworks)Hadoopエコシステムとの統合UIがやや古い
Collibra商用ガバナンス機能が充実高コスト
Alation商用AI活用のメタデータ管理高コスト
AWS Glue Data CatalogクラウドAWS統合が容易AWS外のソースは手間
Google Data CatalogクラウドGCP統合が容易GCP外のソースは手間

メタデータ収集の自動化

自動収集と手動入力の使い分け

メタデータ項目収集方法理由
テーブル名、カラム名、データ型自動スキーマから機械的に取得可能
レコード数、NULL率、分布自動プロファイリングで自動算出
最終更新日時、更新頻度自動パイプラインログから取得
利用頻度、クエリ数自動クエリログから自動集計
リネージ(上流・下流)自動+手動パイプラインから自動取得、手動で補完
ビジネス定義手動人間にしか書けない
オーナー、スチュワード手動組織的な判断が必要
品質SLA手動ビジネス要件に基づく判断

自動収集のアーキテクチャ

メタデータ自動収集パイプライン:

[データソース]                [メタデータ収集]              [データカタログ]
PostgreSQL ──→ スキーマクロール ──→
BigQuery   ──→ API取得        ──→  DataHub /
S3         ──→ ファイル分析    ──→  Amundsen    ──→ 検索・閲覧
Airflow    ──→ DAG解析        ──→  etc.        ──→ リネージ表示
dbt        ──→ manifest解析   ──→              ──→ 品質ダッシュボード
Looker     ──→ API取得        ──→

[メタデータ収集の頻度]
  ├── スキーマ: 日次(変更検知時は即時)
  ├── プロファイリング: 週次
  ├── リネージ: dbt/Airflowの実行ごと
  └── 利用統計: 日次

メタデータ管理のベストプラクティス

オーナーシップとの連携

プラクティス説明
スチュワードの品質責任各ドメインのスチュワードがメタデータの品質を責任持って維持
ビジネス定義のレビュー新規データの登録時にオーナーがビジネス定義をレビュー
変更管理スキーマ変更時にカタログも同時に更新される仕組み
利用者フィードバックデータ利用者が不備や改善点をコメントで指摘できる

メタデータの品質管理

品質指標測定方法目標値
カバレッジビジネス定義がある項目数 / 全項目数80%以上
鮮度最終更新から30日以内の項目の割合90%以上
オーナー率オーナーが割り当てられている項目の割合100%
利用率月1回以上検索・閲覧されたデータ資産の割合60%以上

「メタデータは”データの取扱説明書”だ。取扱説明書がなければ、せっかくのデータも使えない。しかし取扱説明書を書くのに全エネルギーを使ってしまっては本末転倒だ。自動化できるものは自動化し、人間は”ビジネスの文脈”という自動化できない部分に集中する」 — 田中VPoE


まとめ

ポイント内容
3種類のメタデータ技術的、ビジネス、運用メタデータを統合管理
データカタログ検索・発見、プロファイリング、リネージが主要機能
自動化戦略技術的・運用メタデータは自動、ビジネスメタデータは手動
品質管理カバレッジ、鮮度、オーナー率、利用率で測定

チェックリスト

  • メタデータの3種類(技術的・ビジネス・運用)を理解した
  • データカタログの主要機能を把握した
  • 自動収集と手動入力の使い分けを理解した
  • メタデータの品質指標を把握した

次のステップへ

次は「プライバシーとコンプライアンス」を学びます。個人情報保護法やGDPRへの対応を含む、データコンプライアンスの設計方法を身につけましょう。


推定読了時間: 30分