データ資産の棚卸手法 - L0 カリキュラム

ストーリー

田

田中VPoE

データ戦略の第一歩は「何があるか知る」ことだ。うちのデータ資産、全体像を把握している人は何人いると思う？

あなた

正直、各チームが自分の範囲しか知らないと思います。全体を把握している人はいないのでは

あ

田

田中VPoE

その通りだ。これが最大の問題だ。営業のCRMデータ、プロダクトのユーザー行動データ、マーケティングのキャンペーンデータ、経理の財務データ — すべてが別々のシステムに散在している。まずは全体を見える化するための棚卸しが必要だ

あなた

どこから手を付ければいいですか？

あ

田

田中VPoE

3つのアプローチを組み合わせる。「自動ディスカバリ」「ステークホルダーヒアリング」「システム横断分析」だ

データ資産棚卸しの全体像

棚卸しの目的

目的	説明	具体的な成果物
可視化	どこに何のデータがあるかを全体像として把握する	データ資産カタログ
分類	データの種類・重要度・機密度を体系的に整理する	データ分類体系
関係性の把握	データ間の依存関係やフローを明らかにする	データリネージマップ
課題の特定	重複、欠損、品質問題、セキュリティリスクを洗い出す	課題一覧と優先度

棚卸しの3つのアプローチ

データ資産棚卸しの3層アプローチ:

Layer 1: 自動ディスカバリ（ボトムアップ）
  ├── データベーススキーマの自動収集
  ├── データパイプラインのトレース
  ├── API仕様書からのデータモデル抽出
  └── クラウドサービスのストレージ一覧

Layer 2: ステークホルダーヒアリング（トップダウン）
  ├── 各部門のデータ利用状況
  ├── 意思決定に使っているデータ
  ├── 「あれば欲しい」データの要望
  └── データに関する課題・不満

Layer 3: システム横断分析（クロスカット）
  ├── データフローの全体マッピング
  ├── 重複データの特定
  ├── マスターデータの識別
  └── データリネージの構築

Layer 1: 自動ディスカバリ

データソースの種類と発見手法

データソース	発見手法	取得できる情報
RDBMS	スキーマクロール、Information Schema	テーブル構造、カラム名、型、制約、レコード数
NoSQL	コレクション/テーブル一覧、サンプルドキュメント分析	データモデル、フィールド名、ネスト構造
データウェアハウス	メタデータカタログAPI	テーブル一覧、パーティション、利用頻度
オブジェクトストレージ	バケット/プレフィックス一覧	ファイル数、サイズ、更新頻度、フォーマット
SaaS	API仕様書、Webhook定義	エンティティモデル、利用可能フィールド
ログ	ログフォーマット分析	イベント種別、フィールド、ボリューム

自動ディスカバリで使えるツール

ツールカテゴリ	代表的ツール	特徴
データカタログ	Apache Atlas, DataHub, Amundsen	OSS、メタデータ収集・管理
クラウドネイティブ	AWS Glue Data Catalog, Google Data Catalog	クラウドサービスとの統合
商用製品	Collibra, Alation, Informatica	豊富な機能、エンタープライズ向け
軽量ツール	dbt docs, Great Expectations	特定領域に特化、導入が容易

Layer 2: ステークホルダーヒアリング

ヒアリング対象と観点

ステークホルダー	ヒアリング観点	典型的な回答例
経営層	意思決定に使うデータ、KPI	「月次の顧客LTVが見たいが、算出に2週間かかる」
プロダクトマネージャー	ユーザー行動分析、A/Bテスト	「ファネル分析をしたいが、イベントデータが不完全」
営業	顧客情報、パイプライン分析	「CRMとプロダクトデータが繋がっていない」
マーケティング	キャンペーン効果、アトリビューション	「広告効果の測定が手作業で、リアルタイムに見えない」
カスタマーサクセス	解約予測、ヘルススコア	「解約の兆候を早期に検知したいがデータが散在」
エンジニアリング	システムメトリクス、品質指標	「各サービスの依存関係が可視化されていない」

ヒアリングテンプレート

質問カテゴリ	具体的な質問
データ利用	日常業務でどのようなデータを使っていますか？
データソース	そのデータはどのシステムから取得していますか？
加工プロセス	データの取得から活用までにどのような加工をしていますか？
課題	データに関して最も困っていることは何ですか？
要望	「こんなデータがあれば」と思うものはありますか？
頻度	データを確認・分析する頻度はどのくらいですか？
意思決定	データに基づいて下している重要な意思決定は何ですか？

Layer 3: システム横断分析

データフローマッピング

組織全体のデータの流れを可視化します。

データフローの全体像（例）:

[データソース]
  CRM(Salesforce) ──→ ETL ──→ DWH(Redshift)
  プロダクトDB(PostgreSQL) ──→ CDC ──→ DWH(Redshift)
  広告(Google Ads) ──→ API連携 ──→ DWH(Redshift)
  ログ(CloudWatch) ──→ Kinesis ──→ S3 ──→ DWH(Redshift)

[データ加工]
  DWH(Redshift) ──→ dbt ──→ マート層
                              ├── 顧客マート
                              ├── 売上マート
                              └── プロダクトマート

[データ消費]
  マート層 ──→ BIツール(Tableau) ──→ 経営ダッシュボード
  マート層 ──→ Jupyter ──→ データサイエンスチーム
  マート層 ──→ API ──→ プロダクト内レコメンド

データリネージの構築

要素	説明	重要性
ソース	データの発生元	品質問題のトレースに必須
変換	ETL/ELTでの加工内容	ビジネスロジックの把握
消費先	データを利用するシステム・レポート	影響範囲の把握
鮮度	データの更新頻度とレイテンシ	SLAの設計に必要
責任者	各段階のデータオーナー	問題発生時の連絡先

データ分類体系の設計

4軸での分類

分類軸	レベル	説明
機密度	Public / Internal / Confidential / Restricted	データへのアクセス制御に直結
重要度	Critical / High / Medium / Low	障害時の優先復旧順序に使用
鮮度要件	Real-time / Near-real-time / Daily / Weekly / Monthly	データパイプラインの設計に反映
保持期間	永久 / 7年 / 3年 / 1年 / 90日	ストレージコストとコンプライアンスに影響

機密度分類の具体例

分類	該当データ例	アクセス制御
Restricted	個人情報（PII）、決済情報、パスワードハッシュ	最小権限原則、暗号化必須、アクセスログ監査
Confidential	売上データ、顧客リスト、契約情報	部門限定、NDA対象
Internal	社内Wiki、プロジェクト計画、技術ドキュメント	社員アクセス可能
Public	公開API仕様、ブログ記事、プレスリリース	制限なし

データカタログの設計

データカタログに含めるべき情報

カテゴリ	項目	例
基本情報	名前、説明、オーナー	「顧客マスター」, 営業部
技術情報	所在地、フォーマット、スキーマ	PostgreSQL / customers テーブル
品質情報	完全性、正確性、鮮度	完全性98%、日次更新
利用情報	主な利用者、利用目的、アクセス頻度	営業チーム、週次レポート
ガバナンス	機密度、保持期間、アクセス制御	Confidential、7年、営業部+CS部
リネージ	ソース、変換処理、依存先	CRMからETL経由、BIダッシュボードに利用

「データカタログは”データの図書館の目録”だ。目録がなければ、誰も必要な本を見つけられない。逆に目録がよく整備されていれば、誰でも必要なデータを自力で見つけられる」 — 田中VPoE

まとめ

ポイント	内容
3層アプローチ	自動ディスカバリ、ステークホルダーヒアリング、システム横断分析
データ分類の4軸	機密度、重要度、鮮度要件、保持期間
データリネージ	ソースから消費先までの全経路を可視化
データカタログ	基本・技術・品質・利用・ガバナンス・リネージを一元管理

チェックリスト

データ資産棚卸しの3層アプローチを理解した
自動ディスカバリで取得できる情報とツールを把握した
ステークホルダーヒアリングの対象と観点を理解した
データ分類体系の4軸を理解した
データカタログに含めるべき情報を把握した

次のステップへ

次は「データ成熟度モデル」を学びます。組織のデータ活用レベルを客観的に評価し、目指すべきゴールを設定する方法を身につけましょう。

推定読了時間: 30分