データカタログの設計と導入
田中VPoE「データドリブンの第一歩は『どこにどんなデータがあるか』を全員が知れる状態にすることだ。」
あなた「確かに、今は『このデータどこにありますか?』という質問がSlackで毎日飛び交っています。」
田中VPoE「データカタログを導入すれば、データの『図書館の目録』ができる。誰でも必要なデータを自分で見つけられるようになるんだ。」
データカタログとは
データカタログは、組織内のデータ資産を検索・発見・理解できるようにする統合的な目録です。図書館の蔵書目録のように、どこにどんなデータがあり、どのような意味を持つかを整理します。
なぜデータカタログが必要なのか
データカタログがない場合の問題
| 問題 | 影響 |
|---|---|
| データの発見に時間がかかる | アナリストの時間の30-40%がデータ探しに費やされる |
| 同じデータの重複定義 | 部門ごとに「売上」の定義が異なる |
| データの信頼性が不明 | 「このデータはいつ更新されたのか」がわからない |
| ナレッジの属人化 | 特定の人がいないとデータの意味がわからない |
データカタログがある場合の効果
- データ発見時間の短縮:検索で必要なデータをすぐに見つけられる
- 定義の統一:ビジネス用語とデータの紐付けが明確になる
- 信頼性の向上:データの鮮度・品質・オーナーが明示される
- コラボレーション促進:データに関する知見が蓄積・共有される
データカタログの主要機能
1. データディスカバリ(発見)
検索例:
- 「月次売上」→ sales_monthly テーブル
- 「顧客セグメント」→ customer_segments ビュー
- 「在庫」→ inventory_current, inventory_history テーブル
フルテキスト検索、タグ検索、フィルタリングで必要なデータを素早く発見できます。
2. データリネージ(系統追跡)
データがどこから来て、どのように加工され、どこで使われているかを可視化します。
[注文データ] → [ETL処理] → [売上集計テーブル] → [売上ダッシュボード]
↓
[在庫データ] → [需要予測モデル]
3. ビジネス用語集(グロッサリー)
ビジネス用語とデータの対応関係を定義します。
| ビジネス用語 | 定義 | 対応データ |
|---|---|---|
| アクティブユーザー | 過去30日間にログインしたユーザー | users.last_login_at |
| 売上 | 返品・キャンセルを除いた確定売上 | orders.status = ‘completed’ |
| 解約率 | 月初会員数に対する月内解約者の割合 | churn_metrics.monthly_rate |
4. データプロファイリング
各データセットの統計情報を自動収集します:
- レコード数、カラム数
- NULL率、ユニーク値の数
- 値の分布、外れ値の検出
- 最終更新日時
5. アクセス管理とポリシー
- 誰がどのデータにアクセスできるか
- 個人情報を含むデータの分類
- データ利用のポリシーと制約
データカタログの代表的なツール
| ツール | 特徴 | 適するケース |
|---|---|---|
| Apache Atlas | OSS、Hadoopエコシステム対応 | Hadoop基盤がある組織 |
| DataHub (LinkedIn) | OSS、豊富なインテグレーション | モダンなデータスタック |
| Amundsen (Lyft) | OSS、検索に特化 | データ発見を重視 |
| Google Data Catalog | GCP統合、マネージド | GCPユーザー |
| AWS Glue Data Catalog | AWS統合、マネージド | AWSユーザー |
| Atlan | SaaS、コラボレーション重視 | 導入の手軽さを重視 |
データカタログの導入ステップ
Step 1:スコープ定義(2週間)
- 対象とするデータソースの特定
- 優先度の高いデータセットの選定
- ステークホルダーの特定
Step 2:メタデータ収集の自動化(4週間)
- データソースとの接続設定
- 技術メタデータの自動収集
- データリネージの自動構築
Step 3:ビジネスメタデータの付与(4週間)
- ビジネス用語集の作成
- データオーナーの指定
- タグとカテゴリの付与
Step 4:運用と改善(継続)
- メタデータの鮮度を保つ仕組み
- ユーザーからのフィードバック収集
- カバレッジの拡大
まとめ
| 項目 | ポイント |
|---|---|
| データカタログ | データ資産の検索・発見・理解を可能にする目録 |
| 主要機能 | ディスカバリ、リネージ、グロッサリー、プロファイリング |
| 効果 | データ発見時間の短縮、定義の統一、信頼性の向上 |
| 導入 | スコープ定義→自動収集→ビジネスメタデータ→運用 |
チェックリスト
- データカタログの5つの主要機能を説明できる
- 代表的なデータカタログツールを3つ以上挙げられる
- データカタログの導入ステップを理解している
- データリネージの重要性を説明できる
次のステップへ
データカタログの全体像を学びました。次は、カタログの中核となるメタデータ管理について詳しく学びましょう。
推定読了時間:30分