演習：データ戦略ドキュメントを作成しよう

ストーリー

田

田中VPoE

データ戦略、アーキテクチャパターン、Data Mesh、Medallionアーキテクチャ。理論は一通り学んだ。ここからは実践だ。実際の組織シナリオを使って、データ戦略ドキュメントを作成してもらう

あなた

具体的な企業の情報が与えられるんですね

あ

田

田中VPoE

そうだ。急成長中のBtoB SaaS企業が、データ基盤を刷新するシナリオだ。現状分析からアーキテクチャ選定、ロードマップ策定まで一気通貫で戦略を描いてくれ

あなた

Step 1で学んだすべてを統合する演習ですね

あ

田

田中VPoE

CTO向けの提案書として通用するレベルのドキュメントを目指してくれ。「なぜこのアーキテクチャなのか」を論理的に説明できることが重要だ

ミッション概要

項目	内容
演習タイトル	データ戦略ドキュメントの作成
想定時間	60分
成果物	データ戦略ドキュメント（現状分析 + アーキテクチャ選定 + ロードマップ）
対象企業	DataFlow社（BtoB SaaS企業）

前提条件

企業の概要

対象企業: DataFlow社（BtoB SaaS企業）

事業概要:
  - マーケティングオートメーション SaaS を提供
  - 導入企業数: 約1,500社
  - ARR: 15億円（前年比40%成長）
  - 従業員数: 150名（エンジニア60名）

主要データソース:
  - PostgreSQL (アプリケーションDB) -- 顧客、キャンペーン、配信履歴
  - MongoDB (イベントログ) -- ユーザー行動、メール開封/クリック
  - Salesforce (CRM) -- 商談、契約情報
  - HubSpot (マーケティング) -- リード、MQL/SQL
  - Stripe (決済) -- 請求、売上
  - BigQuery (一部の分析チームが独自に構築)

現在のデータ基盤:
  - 各部門がスプレッドシートで独自に集計
  - データチーム2名がBigQueryにETLパイプラインを構築（Airflow）
  - BIツール: Looker（データチームのみが使用）
  - ダッシュボードは20個あるが、10個は放置されている

抱えている問題:
  - 「同じ指標なのに数字が違う」問題が月次経営会議で毎回発生
  - 「アクティブユーザー」の定義が部門ごとに3種類存在
  - チャーン率の計算が手動で、レポート作成に毎月3営業日かかる
  - データチーム（2名）へのリクエスト待ちが平均2週間
  - セルフサービス分析は実現できておらず、SQLを書ける人が限られている
  - 個人情報の取り扱いポリシーが不明確

Mission 1: 現状のデータ成熟度を評価する

要件

DataFlow社のデータ成熟度をL1〜L5のモデルで評価してください。

5つの評価軸（ガバナンス、アーキテクチャ、品質、組織、活用度）でスコアリングする
各軸の現状と課題を記述する
総合成熟度レベルを判定する

解答例

成熟度評価

評価軸	現在レベル	根拠
ガバナンス	L1	指標の定義が統一されていない、データオーナーシップが不明確
アーキテクチャ	L1-L2	BigQueryにETLあるが一部のみ、データレイクなし
品質	L1	データ品質チェックの自動化なし、手動突合に依存
組織	L1	データチーム2名でボトルネック、セルフサービスなし
活用度	L1-L2	Looker導入済みだが限定利用、ML/AIは未活用

総合: L1.3（Reactive〜Managed移行段階）

主要課題

Single Source of Truthの欠如: 「アクティブユーザー」定義が3種類
データチームのボトルネック: 2名に全社のリクエストが集中
データ品質の未管理: チェック自動化なし、手動集計に3営業日
ガバナンスの欠如: PIIの取り扱いポリシーが未定義

Mission 2: アーキテクチャの選定

要件

DataFlow社に最適なデータアーキテクチャを選定し、理由を説明してください。

Medallionアーキテクチャを採用するかどうか判断し、理由を述べる
Data Meshを採用するかどうか判断し、理由を述べる
ETL vs ELTのどちらを採用するか決定する
選定したアーキテクチャの全体像を図示する

解答例

選定結果

パターン	採用	理由
Medallionアーキテクチャ	採用	データ品質の段階的向上が必要。Bronze/Silver/Goldで管理
Data Mesh	不採用（将来検討）	現在L1.3で中央集権型で基盤を固める段階。エンジニア60名でData Meshは時期尚早
ELT	採用	BigQueryのコンピュートを活用、dbtで変換を管理
Kappa Architecture	部分採用	イベントログのストリーム処理はKappaで設計

アーキテクチャ全体像

データソース              取り込み              変換               配信
PostgreSQL ──┐      ┌──────────┐       ┌──────────┐      ┌──────────┐
MongoDB    ──┼──→   │ Fivetran │──→    │ BigQuery │──→   │ Looker   │
Salesforce ──┤      │ (EL)     │  Bronze│ + dbt   │ Gold │ ML       │
HubSpot    ──┤      └──────────┘       │ (T)     │      │ Reverse  │
Stripe     ──┘                         └──────────┘      │ ETL     │
                                                          └──────────┘

Mission 3: ロードマップの策定

要件

12ヶ月の導入ロードマップを策定してください。

4つのフェーズに分割する
各フェーズのマイルストーンと成果物を定義する
必要なリソース（人員、ツール、予算）を見積もる
フェーズごとのデータ成熟度の目標レベルを設定する

解答例

12ヶ月ロードマップ

フェーズ	期間	マイルストーン	目標成熟度
Phase 1: 基盤構築	Month 1-3	Fivetran + BigQuery + dbt導入、主要5テーブルのBronze/Silver/Gold	L2
Phase 2: 品質と指標統一	Month 4-6	指標辞書の整備、データ品質チェック自動化、セルフサービスBIの展開	L2-L3
Phase 3: 高度化	Month 7-9	ストリーム処理導入、データカタログ、リネージ	L3
Phase 4: ML/分析活用	Month 10-12	チャーン予測モデル、フィーチャーストア、ダッシュボード最適化	L3-L4

リソース計画

リソース	Phase 1	Phase 2	Phase 3	Phase 4	年間合計
データエンジニア	2→3名	3名	4名	4名	—
アナリティクスエンジニア	0名	1名	1名	1名	—
Fivetran	30万円/月	30万円/月	30万円/月	30万円/月	360万円
BigQuery	20万円/月	40万円/月	60万円/月	80万円/月	600万円
Looker	50万円/月	50万円/月	50万円/月	50万円/月	600万円
人件費増分	100万円/月	150万円/月	200万円/月	200万円/月	1,950万円
合計					約3,510万円

達成度チェック

観点	達成基準
成熟度評価	5つの評価軸でスコアリングし、総合レベルを判定している
アーキテクチャ選定	各パターンの採用/不採用を理由付きで判断している
ロードマップ	4フェーズに分割し、マイルストーン・リソース計画がある
実用性	CTO向け提案書として通用する品質である

推定所要時間: 60分