ストーリー
田
田中VPoE
「このデータはどのテーブルにある?」「このカラムの意味は?」「このデータの鮮度は?」。データチームに毎日こんな質問が来ていないか?
あなた
まさにそうです。Slackで質問が来るたびに調べて回答しています。1日に5-6件は来ますね
あ
田
田中VPoE
その工数を減らすのがデータカタログだ。組織内のすべてのデータ資産を検索可能にし、メタデータを一元管理する。Googleの社内検索のデータ版だと思えばいい
田
田中VPoE
まさにそうだ。ただし、本の目録とは違い、データカタログは自動的にメタデータを収集し、データの品質スコアやリネージも統合する。セルフサービス分析の基盤だ
データカタログの役割
3つの機能
| 機能 | 説明 | 具体例 |
|---|
| データ発見 | 必要なデータを検索・探索できる | 「顧客の売上データ」で検索 |
| メタデータ管理 | テーブル・カラムの意味、オーナー、品質を管理 | 「total_amount: 税込み合計金額(円)」 |
| データガバナンス | アクセス制御、PII分類、利用状況の追跡 | 「このテーブルにはPIIが含まれる」 |
メタデータの種類
| 種類 | 内容 | 収集方法 |
|---|
| テクニカルメタデータ | スキーマ、型、パーティション、統計情報 | 自動収集 |
| ビジネスメタデータ | カラムの説明、ビジネス用語、オーナー | 手動入力 + dbt description |
| オペレーショナルメタデータ | 最終更新日時、クエリ頻度、コスト | 自動収集 |
| ソーシャルメタデータ | 利用者のレビュー、質問、ブックマーク | ユーザー操作 |
データカタログツール
主要ツール比較
| ツール | ライセンス | 特徴 | 適用場面 |
|---|
| DataHub | OSS (LinkedIn) | メタデータプラットフォーム、拡張性高い | 中〜大規模組織 |
| Apache Atlas | OSS | Hadoopエコシステム統合 | Hadoop中心の環境 |
| Amundsen | OSS (Lyft) | データ発見に特化、軽量 | データ発見に注力したい場合 |
| Atlan | 商用 | UIが優れる、AI機能 | エンタープライズ |
| Alation | 商用 | 企業向けガバナンス | 大企業、コンプライアンス重視 |
| dbt docs | OSS | dbtモデルのドキュメント | dbtユーザー(最小構成) |
| Google Data Catalog | GCPマネージド | GCPサービス統合 | GCP中心の環境 |
ビジネス用語集(Business Glossary)
指標定義の統一
ビジネス用語集の例:
用語: アクティブユーザー(Active User)
├── 定義: 過去30日間に1回以上ログインしたユーザー
├── 計算式: COUNT(DISTINCT user_id) WHERE last_login >= CURRENT_DATE - 30
├── ソーステーブル: gold.fact_user_activity
├── オーナー: プロダクトチーム
├── 更新頻度: 日次
└── 関連KPI: DAU, WAU, MAU
用語: MRR(Monthly Recurring Revenue)
├── 定義: 当月の有効サブスクリプション × 月額料金の合計
├── 計算式: SUM(monthly_price) WHERE status = 'ACTIVE'
├── ソーステーブル: gold.fact_subscription
├── オーナー: ファイナンスチーム
├── 更新頻度: 日次
└── 関連KPI: ARR, NRR, 解約率
用語: チャーン率(Churn Rate)
├── 定義: 月初のアクティブユーザーのうち、月末に非アクティブになった割合
├── 計算式: (月初アクティブ - 月末アクティブ) / 月初アクティブ
├── ソーステーブル: gold.mart_monthly_metrics
├── オーナー: カスタマーサクセスチーム
├── 更新頻度: 月次
└── 注意事項: 「非アクティブ」はサブスクリプション解約ではなく、ログインの有無で判定
「ビジネス用語集は、データカタログの中で最も重要なコンテンツだ。『アクティブユーザー』の定義が3種類ある問題は、用語集で公式定義を決め、ダッシュボードにリンクを貼ることで解決する」 — 田中VPoE
データカタログの運用
導入フェーズ
| フェーズ | 期間 | 活動 |
|---|
| Phase 1 | 1ヶ月 | ツール導入 + テクニカルメタデータの自動収集 |
| Phase 2 | 2-3ヶ月 | ビジネスメタデータの入力(上位20テーブルから) |
| Phase 3 | 3-6ヶ月 | ビジネス用語集の整備、オーナーシップの設定 |
| Phase 4 | 継続 | 品質スコア統合、利用状況モニタリング、PII分類 |
メタデータ入力の優先順位
| 優先度 | 対象 | 基準 |
|---|
| 高 | 経営ダッシュボードで使用されるテーブル | ビジネスインパクト大 |
| 高 | PIIを含むテーブル | コンプライアンスリスク |
| 中 | 日常的にクエリされるテーブル(上位20%) | 利用頻度 |
| 低 | ステージング、一時テーブル | 限定的な利用者 |
まとめ
| ポイント | 内容 |
|---|
| データカタログ | データの発見、メタデータ管理、ガバナンスを統合する仕組み |
| メタデータ | テクニカル、ビジネス、オペレーショナル、ソーシャルの4種類 |
| ビジネス用語集 | 指標の定義を統一し、「数字が違う」問題を解消する |
| 運用 | 自動収集 + ビジネスメタデータの段階的入力で立ち上げる |
チェックリスト
次のステップへ
次は「データオブザーバビリティ」を学びます。データパイプラインの異常を自動検知し、データのダウンタイムを最小化する仕組みを身につけましょう。
推定読了時間: 30分