ストーリー
田
田中VPoE
データ戦略、アーキテクチャパターン、Data Mesh、Medallionアーキテクチャ。理論は一通り学んだ。ここからは実践だ。実際の組織シナリオを使って、データ戦略ドキュメントを作成してもらう
田
田中VPoE
そうだ。急成長中のBtoB SaaS企業が、データ基盤を刷新するシナリオだ。現状分析からアーキテクチャ選定、ロードマップ策定まで一気通貫で戦略を描いてくれ
あなた
Step 1で学んだすべてを統合する演習ですね
あ
田
田中VPoE
CTO向けの提案書として通用するレベルのドキュメントを目指してくれ。「なぜこのアーキテクチャなのか」を論理的に説明できることが重要だ
ミッション概要
| 項目 | 内容 |
|---|
| 演習タイトル | データ戦略ドキュメントの作成 |
| 想定時間 | 60分 |
| 成果物 | データ戦略ドキュメント(現状分析 + アーキテクチャ選定 + ロードマップ) |
| 対象企業 | DataFlow社(BtoB SaaS企業) |
前提条件
企業の概要
対象企業: DataFlow社(BtoB SaaS企業)
事業概要:
- マーケティングオートメーション SaaS を提供
- 導入企業数: 約1,500社
- ARR: 15億円(前年比40%成長)
- 従業員数: 150名(エンジニア60名)
主要データソース:
- PostgreSQL (アプリケーションDB) -- 顧客、キャンペーン、配信履歴
- MongoDB (イベントログ) -- ユーザー行動、メール開封/クリック
- Salesforce (CRM) -- 商談、契約情報
- HubSpot (マーケティング) -- リード、MQL/SQL
- Stripe (決済) -- 請求、売上
- BigQuery (一部の分析チームが独自に構築)
現在のデータ基盤:
- 各部門がスプレッドシートで独自に集計
- データチーム2名がBigQueryにETLパイプラインを構築(Airflow)
- BIツール: Looker(データチームのみが使用)
- ダッシュボードは20個あるが、10個は放置されている
抱えている問題:
- 「同じ指標なのに数字が違う」問題が月次経営会議で毎回発生
- 「アクティブユーザー」の定義が部門ごとに3種類存在
- チャーン率の計算が手動で、レポート作成に毎月3営業日かかる
- データチーム(2名)へのリクエスト待ちが平均2週間
- セルフサービス分析は実現できておらず、SQLを書ける人が限られている
- 個人情報の取り扱いポリシーが不明確
Mission 1: 現状のデータ成熟度を評価する
要件
DataFlow社のデータ成熟度をL1〜L5のモデルで評価してください。
- 5つの評価軸(ガバナンス、アーキテクチャ、品質、組織、活用度)でスコアリングする
- 各軸の現状と課題を記述する
- 総合成熟度レベルを判定する
解答例
成熟度評価
| 評価軸 | 現在レベル | 根拠 |
|---|
| ガバナンス | L1 | 指標の定義が統一されていない、データオーナーシップが不明確 |
| アーキテクチャ | L1-L2 | BigQueryにETLあるが一部のみ、データレイクなし |
| 品質 | L1 | データ品質チェックの自動化なし、手動突合に依存 |
| 組織 | L1 | データチーム2名でボトルネック、セルフサービスなし |
| 活用度 | L1-L2 | Looker導入済みだが限定利用、ML/AIは未活用 |
総合: L1.3(Reactive〜Managed移行段階)
主要課題
- Single Source of Truthの欠如: 「アクティブユーザー」定義が3種類
- データチームのボトルネック: 2名に全社のリクエストが集中
- データ品質の未管理: チェック自動化なし、手動集計に3営業日
- ガバナンスの欠如: PIIの取り扱いポリシーが未定義
Mission 2: アーキテクチャの選定
要件
DataFlow社に最適なデータアーキテクチャを選定し、理由を説明してください。
- Medallionアーキテクチャを採用するかどうか判断し、理由を述べる
- Data Meshを採用するかどうか判断し、理由を述べる
- ETL vs ELTのどちらを採用するか決定する
- 選定したアーキテクチャの全体像を図示する
解答例
選定結果
| パターン | 採用 | 理由 |
|---|
| Medallionアーキテクチャ | 採用 | データ品質の段階的向上が必要。Bronze/Silver/Goldで管理 |
| Data Mesh | 不採用(将来検討) | 現在L1.3で中央集権型で基盤を固める段階。エンジニア60名でData Meshは時期尚早 |
| ELT | 採用 | BigQueryのコンピュートを活用、dbtで変換を管理 |
| Kappa Architecture | 部分採用 | イベントログのストリーム処理はKappaで設計 |
アーキテクチャ全体像
データソース 取り込み 変換 配信
PostgreSQL ──┐ ┌──────────┐ ┌──────────┐ ┌──────────┐
MongoDB ──┼──→ │ Fivetran │──→ │ BigQuery │──→ │ Looker │
Salesforce ──┤ │ (EL) │ Bronze│ + dbt │ Gold │ ML │
HubSpot ──┤ └──────────┘ │ (T) │ │ Reverse │
Stripe ──┘ └──────────┘ │ ETL │
└──────────┘
Mission 3: ロードマップの策定
要件
12ヶ月の導入ロードマップを策定してください。
- 4つのフェーズに分割する
- 各フェーズのマイルストーンと成果物を定義する
- 必要なリソース(人員、ツール、予算)を見積もる
- フェーズごとのデータ成熟度の目標レベルを設定する
解答例
12ヶ月ロードマップ
| フェーズ | 期間 | マイルストーン | 目標成熟度 |
|---|
| Phase 1: 基盤構築 | Month 1-3 | Fivetran + BigQuery + dbt導入、主要5テーブルのBronze/Silver/Gold | L2 |
| Phase 2: 品質と指標統一 | Month 4-6 | 指標辞書の整備、データ品質チェック自動化、セルフサービスBIの展開 | L2-L3 |
| Phase 3: 高度化 | Month 7-9 | ストリーム処理導入、データカタログ、リネージ | L3 |
| Phase 4: ML/分析活用 | Month 10-12 | チャーン予測モデル、フィーチャーストア、ダッシュボード最適化 | L3-L4 |
リソース計画
| リソース | Phase 1 | Phase 2 | Phase 3 | Phase 4 | 年間合計 |
|---|
| データエンジニア | 2→3名 | 3名 | 4名 | 4名 | — |
| アナリティクスエンジニア | 0名 | 1名 | 1名 | 1名 | — |
| Fivetran | 30万円/月 | 30万円/月 | 30万円/月 | 30万円/月 | 360万円 |
| BigQuery | 20万円/月 | 40万円/月 | 60万円/月 | 80万円/月 | 600万円 |
| Looker | 50万円/月 | 50万円/月 | 50万円/月 | 50万円/月 | 600万円 |
| 人件費増分 | 100万円/月 | 150万円/月 | 200万円/月 | 200万円/月 | 1,950万円 |
| 合計 | | | | | 約3,510万円 |
達成度チェック
| 観点 | 達成基準 |
|---|
| 成熟度評価 | 5つの評価軸でスコアリングし、総合レベルを判定している |
| アーキテクチャ選定 | 各パターンの採用/不採用を理由付きで判断している |
| ロードマップ | 4フェーズに分割し、マイルストーン・リソース計画がある |
| 実用性 | CTO向け提案書として通用する品質である |
推定所要時間: 60分