LESSON 30分

ストーリー

田中VPoE
「このデータはどのテーブルにある?」「このカラムの意味は?」「このデータの鮮度は?」。データチームに毎日こんな質問が来ていないか?
あなた
まさにそうです。Slackで質問が来るたびに調べて回答しています。1日に5-6件は来ますね
田中VPoE
その工数を減らすのがデータカタログだ。組織内のすべてのデータ資産を検索可能にし、メタデータを一元管理する。Googleの社内検索のデータ版だと思えばいい
あなた
図書館の蔵書目録みたいなものですね
田中VPoE
まさにそうだ。ただし、本の目録とは違い、データカタログは自動的にメタデータを収集し、データの品質スコアやリネージも統合する。セルフサービス分析の基盤だ

データカタログの役割

3つの機能

機能説明具体例
データ発見必要なデータを検索・探索できる「顧客の売上データ」で検索
メタデータ管理テーブル・カラムの意味、オーナー、品質を管理「total_amount: 税込み合計金額(円)」
データガバナンスアクセス制御、PII分類、利用状況の追跡「このテーブルにはPIIが含まれる」

メタデータの種類

種類内容収集方法
テクニカルメタデータスキーマ、型、パーティション、統計情報自動収集
ビジネスメタデータカラムの説明、ビジネス用語、オーナー手動入力 + dbt description
オペレーショナルメタデータ最終更新日時、クエリ頻度、コスト自動収集
ソーシャルメタデータ利用者のレビュー、質問、ブックマークユーザー操作

データカタログツール

主要ツール比較

ツールライセンス特徴適用場面
DataHubOSS (LinkedIn)メタデータプラットフォーム、拡張性高い中〜大規模組織
Apache AtlasOSSHadoopエコシステム統合Hadoop中心の環境
AmundsenOSS (Lyft)データ発見に特化、軽量データ発見に注力したい場合
Atlan商用UIが優れる、AI機能エンタープライズ
Alation商用企業向けガバナンス大企業、コンプライアンス重視
dbt docsOSSdbtモデルのドキュメントdbtユーザー(最小構成)
Google Data CatalogGCPマネージドGCPサービス統合GCP中心の環境

ビジネス用語集(Business Glossary)

指標定義の統一

ビジネス用語集の例:

用語: アクティブユーザー(Active User)
├── 定義: 過去30日間に1回以上ログインしたユーザー
├── 計算式: COUNT(DISTINCT user_id) WHERE last_login >= CURRENT_DATE - 30
├── ソーステーブル: gold.fact_user_activity
├── オーナー: プロダクトチーム
├── 更新頻度: 日次
└── 関連KPI: DAU, WAU, MAU

用語: MRR(Monthly Recurring Revenue)
├── 定義: 当月の有効サブスクリプション × 月額料金の合計
├── 計算式: SUM(monthly_price) WHERE status = 'ACTIVE'
├── ソーステーブル: gold.fact_subscription
├── オーナー: ファイナンスチーム
├── 更新頻度: 日次
└── 関連KPI: ARR, NRR, 解約率

用語: チャーン率(Churn Rate)
├── 定義: 月初のアクティブユーザーのうち、月末に非アクティブになった割合
├── 計算式: (月初アクティブ - 月末アクティブ) / 月初アクティブ
├── ソーステーブル: gold.mart_monthly_metrics
├── オーナー: カスタマーサクセスチーム
├── 更新頻度: 月次
└── 注意事項: 「非アクティブ」はサブスクリプション解約ではなく、ログインの有無で判定

「ビジネス用語集は、データカタログの中で最も重要なコンテンツだ。『アクティブユーザー』の定義が3種類ある問題は、用語集で公式定義を決め、ダッシュボードにリンクを貼ることで解決する」 — 田中VPoE


データカタログの運用

導入フェーズ

フェーズ期間活動
Phase 11ヶ月ツール導入 + テクニカルメタデータの自動収集
Phase 22-3ヶ月ビジネスメタデータの入力(上位20テーブルから)
Phase 33-6ヶ月ビジネス用語集の整備、オーナーシップの設定
Phase 4継続品質スコア統合、利用状況モニタリング、PII分類

メタデータ入力の優先順位

優先度対象基準
経営ダッシュボードで使用されるテーブルビジネスインパクト大
PIIを含むテーブルコンプライアンスリスク
日常的にクエリされるテーブル(上位20%)利用頻度
ステージング、一時テーブル限定的な利用者

まとめ

ポイント内容
データカタログデータの発見、メタデータ管理、ガバナンスを統合する仕組み
メタデータテクニカル、ビジネス、オペレーショナル、ソーシャルの4種類
ビジネス用語集指標の定義を統一し、「数字が違う」問題を解消する
運用自動収集 + ビジネスメタデータの段階的入力で立ち上げる

チェックリスト

  • データカタログの3つの機能を説明できる
  • 4種類のメタデータを理解した
  • ビジネス用語集の重要性と作成方法を理解した
  • データカタログの段階的な導入計画を立てられる

次のステップへ

次は「データオブザーバビリティ」を学びます。データパイプラインの異常を自動検知し、データのダウンタイムを最小化する仕組みを身につけましょう。


推定読了時間: 30分