LESSON 30分

データカタログの設計と導入

田中VPoE「データドリブンの第一歩は『どこにどんなデータがあるか』を全員が知れる状態にすることだ。」

あなた「確かに、今は『このデータどこにありますか?』という質問がSlackで毎日飛び交っています。」

田中VPoE「データカタログを導入すれば、データの『図書館の目録』ができる。誰でも必要なデータを自分で見つけられるようになるんだ。」

データカタログとは

データカタログは、組織内のデータ資産を検索・発見・理解できるようにする統合的な目録です。図書館の蔵書目録のように、どこにどんなデータがあり、どのような意味を持つかを整理します。

なぜデータカタログが必要なのか

データカタログがない場合の問題

問題影響
データの発見に時間がかかるアナリストの時間の30-40%がデータ探しに費やされる
同じデータの重複定義部門ごとに「売上」の定義が異なる
データの信頼性が不明「このデータはいつ更新されたのか」がわからない
ナレッジの属人化特定の人がいないとデータの意味がわからない

データカタログがある場合の効果

  • データ発見時間の短縮:検索で必要なデータをすぐに見つけられる
  • 定義の統一:ビジネス用語とデータの紐付けが明確になる
  • 信頼性の向上:データの鮮度・品質・オーナーが明示される
  • コラボレーション促進:データに関する知見が蓄積・共有される

データカタログの主要機能

1. データディスカバリ(発見)

検索例:
- 「月次売上」→ sales_monthly テーブル
- 「顧客セグメント」→ customer_segments ビュー
- 「在庫」→ inventory_current, inventory_history テーブル

フルテキスト検索、タグ検索、フィルタリングで必要なデータを素早く発見できます。

2. データリネージ(系統追跡)

データがどこから来て、どのように加工され、どこで使われているかを可視化します。

[注文データ] → [ETL処理] → [売上集計テーブル] → [売上ダッシュボード]

[在庫データ] → [需要予測モデル]

3. ビジネス用語集(グロッサリー)

ビジネス用語とデータの対応関係を定義します。

ビジネス用語定義対応データ
アクティブユーザー過去30日間にログインしたユーザーusers.last_login_at
売上返品・キャンセルを除いた確定売上orders.status = ‘completed’
解約率月初会員数に対する月内解約者の割合churn_metrics.monthly_rate

4. データプロファイリング

各データセットの統計情報を自動収集します:

  • レコード数、カラム数
  • NULL率、ユニーク値の数
  • 値の分布、外れ値の検出
  • 最終更新日時

5. アクセス管理とポリシー

  • 誰がどのデータにアクセスできるか
  • 個人情報を含むデータの分類
  • データ利用のポリシーと制約

データカタログの代表的なツール

ツール特徴適するケース
Apache AtlasOSS、Hadoopエコシステム対応Hadoop基盤がある組織
DataHub (LinkedIn)OSS、豊富なインテグレーションモダンなデータスタック
Amundsen (Lyft)OSS、検索に特化データ発見を重視
Google Data CatalogGCP統合、マネージドGCPユーザー
AWS Glue Data CatalogAWS統合、マネージドAWSユーザー
AtlanSaaS、コラボレーション重視導入の手軽さを重視

データカタログの導入ステップ

Step 1:スコープ定義(2週間)

  • 対象とするデータソースの特定
  • 優先度の高いデータセットの選定
  • ステークホルダーの特定

Step 2:メタデータ収集の自動化(4週間)

  • データソースとの接続設定
  • 技術メタデータの自動収集
  • データリネージの自動構築

Step 3:ビジネスメタデータの付与(4週間)

  • ビジネス用語集の作成
  • データオーナーの指定
  • タグとカテゴリの付与

Step 4:運用と改善(継続)

  • メタデータの鮮度を保つ仕組み
  • ユーザーからのフィードバック収集
  • カバレッジの拡大

まとめ

項目ポイント
データカタログデータ資産の検索・発見・理解を可能にする目録
主要機能ディスカバリ、リネージ、グロッサリー、プロファイリング
効果データ発見時間の短縮、定義の統一、信頼性の向上
導入スコープ定義→自動収集→ビジネスメタデータ→運用

チェックリスト

  • データカタログの5つの主要機能を説明できる
  • 代表的なデータカタログツールを3つ以上挙げられる
  • データカタログの導入ステップを理解している
  • データリネージの重要性を説明できる

次のステップへ

データカタログの全体像を学びました。次は、カタログの中核となるメタデータ管理について詳しく学びましょう。


推定読了時間:30分