ストーリー
田
田中VPoE
データ戦略の第一歩は「何があるか知る」ことだ。うちのデータ資産、全体像を把握している人は何人いると思う?
あなた
正直、各チームが自分の範囲しか知らないと思います。全体を把握している人はいないのでは
あ
田
田中VPoE
その通りだ。これが最大の問題だ。営業のCRMデータ、プロダクトのユーザー行動データ、マーケティングのキャンペーンデータ、経理の財務データ — すべてが別々のシステムに散在している。まずは全体を見える化するための棚卸しが必要だ
田
田中VPoE
3つのアプローチを組み合わせる。「自動ディスカバリ」「ステークホルダーヒアリング」「システム横断分析」だ
データ資産棚卸しの全体像
棚卸しの目的
| 目的 | 説明 | 具体的な成果物 |
|---|
| 可視化 | どこに何のデータがあるかを全体像として把握する | データ資産カタログ |
| 分類 | データの種類・重要度・機密度を体系的に整理する | データ分類体系 |
| 関係性の把握 | データ間の依存関係やフローを明らかにする | データリネージマップ |
| 課題の特定 | 重複、欠損、品質問題、セキュリティリスクを洗い出す | 課題一覧と優先度 |
棚卸しの3つのアプローチ
データ資産棚卸しの3層アプローチ:
Layer 1: 自動ディスカバリ(ボトムアップ)
├── データベーススキーマの自動収集
├── データパイプラインのトレース
├── API仕様書からのデータモデル抽出
└── クラウドサービスのストレージ一覧
Layer 2: ステークホルダーヒアリング(トップダウン)
├── 各部門のデータ利用状況
├── 意思決定に使っているデータ
├── 「あれば欲しい」データの要望
└── データに関する課題・不満
Layer 3: システム横断分析(クロスカット)
├── データフローの全体マッピング
├── 重複データの特定
├── マスターデータの識別
└── データリネージの構築
Layer 1: 自動ディスカバリ
データソースの種類と発見手法
| データソース | 発見手法 | 取得できる情報 |
|---|
| RDBMS | スキーマクロール、Information Schema | テーブル構造、カラム名、型、制約、レコード数 |
| NoSQL | コレクション/テーブル一覧、サンプルドキュメント分析 | データモデル、フィールド名、ネスト構造 |
| データウェアハウス | メタデータカタログAPI | テーブル一覧、パーティション、利用頻度 |
| オブジェクトストレージ | バケット/プレフィックス一覧 | ファイル数、サイズ、更新頻度、フォーマット |
| SaaS | API仕様書、Webhook定義 | エンティティモデル、利用可能フィールド |
| ログ | ログフォーマット分析 | イベント種別、フィールド、ボリューム |
自動ディスカバリで使えるツール
| ツールカテゴリ | 代表的ツール | 特徴 |
|---|
| データカタログ | Apache Atlas, DataHub, Amundsen | OSS、メタデータ収集・管理 |
| クラウドネイティブ | AWS Glue Data Catalog, Google Data Catalog | クラウドサービスとの統合 |
| 商用製品 | Collibra, Alation, Informatica | 豊富な機能、エンタープライズ向け |
| 軽量ツール | dbt docs, Great Expectations | 特定領域に特化、導入が容易 |
Layer 2: ステークホルダーヒアリング
ヒアリング対象と観点
| ステークホルダー | ヒアリング観点 | 典型的な回答例 |
|---|
| 経営層 | 意思決定に使うデータ、KPI | 「月次の顧客LTVが見たいが、算出に2週間かかる」 |
| プロダクトマネージャー | ユーザー行動分析、A/Bテスト | 「ファネル分析をしたいが、イベントデータが不完全」 |
| 営業 | 顧客情報、パイプライン分析 | 「CRMとプロダクトデータが繋がっていない」 |
| マーケティング | キャンペーン効果、アトリビューション | 「広告効果の測定が手作業で、リアルタイムに見えない」 |
| カスタマーサクセス | 解約予測、ヘルススコア | 「解約の兆候を早期に検知したいがデータが散在」 |
| エンジニアリング | システムメトリクス、品質指標 | 「各サービスの依存関係が可視化されていない」 |
ヒアリングテンプレート
| 質問カテゴリ | 具体的な質問 |
|---|
| データ利用 | 日常業務でどのようなデータを使っていますか? |
| データソース | そのデータはどのシステムから取得していますか? |
| 加工プロセス | データの取得から活用までにどのような加工をしていますか? |
| 課題 | データに関して最も困っていることは何ですか? |
| 要望 | 「こんなデータがあれば」と思うものはありますか? |
| 頻度 | データを確認・分析する頻度はどのくらいですか? |
| 意思決定 | データに基づいて下している重要な意思決定は何ですか? |
Layer 3: システム横断分析
データフローマッピング
組織全体のデータの流れを可視化します。
データフローの全体像(例):
[データソース]
CRM(Salesforce) ──→ ETL ──→ DWH(Redshift)
プロダクトDB(PostgreSQL) ──→ CDC ──→ DWH(Redshift)
広告(Google Ads) ──→ API連携 ──→ DWH(Redshift)
ログ(CloudWatch) ──→ Kinesis ──→ S3 ──→ DWH(Redshift)
[データ加工]
DWH(Redshift) ──→ dbt ──→ マート層
├── 顧客マート
├── 売上マート
└── プロダクトマート
[データ消費]
マート層 ──→ BIツール(Tableau) ──→ 経営ダッシュボード
マート層 ──→ Jupyter ──→ データサイエンスチーム
マート層 ──→ API ──→ プロダクト内レコメンド
データリネージの構築
| 要素 | 説明 | 重要性 |
|---|
| ソース | データの発生元 | 品質問題のトレースに必須 |
| 変換 | ETL/ELTでの加工内容 | ビジネスロジックの把握 |
| 消費先 | データを利用するシステム・レポート | 影響範囲の把握 |
| 鮮度 | データの更新頻度とレイテンシ | SLAの設計に必要 |
| 責任者 | 各段階のデータオーナー | 問題発生時の連絡先 |
データ分類体系の設計
4軸での分類
| 分類軸 | レベル | 説明 |
|---|
| 機密度 | Public / Internal / Confidential / Restricted | データへのアクセス制御に直結 |
| 重要度 | Critical / High / Medium / Low | 障害時の優先復旧順序に使用 |
| 鮮度要件 | Real-time / Near-real-time / Daily / Weekly / Monthly | データパイプラインの設計に反映 |
| 保持期間 | 永久 / 7年 / 3年 / 1年 / 90日 | ストレージコストとコンプライアンスに影響 |
機密度分類の具体例
| 分類 | 該当データ例 | アクセス制御 |
|---|
| Restricted | 個人情報(PII)、決済情報、パスワードハッシュ | 最小権限原則、暗号化必須、アクセスログ監査 |
| Confidential | 売上データ、顧客リスト、契約情報 | 部門限定、NDA対象 |
| Internal | 社内Wiki、プロジェクト計画、技術ドキュメント | 社員アクセス可能 |
| Public | 公開API仕様、ブログ記事、プレスリリース | 制限なし |
データカタログの設計
データカタログに含めるべき情報
| カテゴリ | 項目 | 例 |
|---|
| 基本情報 | 名前、説明、オーナー | 「顧客マスター」, 営業部 |
| 技術情報 | 所在地、フォーマット、スキーマ | PostgreSQL / customers テーブル |
| 品質情報 | 完全性、正確性、鮮度 | 完全性98%、日次更新 |
| 利用情報 | 主な利用者、利用目的、アクセス頻度 | 営業チーム、週次レポート |
| ガバナンス | 機密度、保持期間、アクセス制御 | Confidential、7年、営業部+CS部 |
| リネージ | ソース、変換処理、依存先 | CRMからETL経由、BIダッシュボードに利用 |
「データカタログは”データの図書館の目録”だ。目録がなければ、誰も必要な本を見つけられない。逆に目録がよく整備されていれば、誰でも必要なデータを自力で見つけられる」 — 田中VPoE
まとめ
| ポイント | 内容 |
|---|
| 3層アプローチ | 自動ディスカバリ、ステークホルダーヒアリング、システム横断分析 |
| データ分類の4軸 | 機密度、重要度、鮮度要件、保持期間 |
| データリネージ | ソースから消費先までの全経路を可視化 |
| データカタログ | 基本・技術・品質・利用・ガバナンス・リネージを一元管理 |
チェックリスト
次のステップへ
次は「データ成熟度モデル」を学びます。組織のデータ活用レベルを客観的に評価し、目指すべきゴールを設定する方法を身につけましょう。
推定読了時間: 30分