EXERCISE 60分

ストーリー

田中VPoE
データ戦略、アーキテクチャパターン、Data Mesh、Medallionアーキテクチャ。理論は一通り学んだ。ここからは実践だ。実際の組織シナリオを使って、データ戦略ドキュメントを作成してもらう
あなた
具体的な企業の情報が与えられるんですね
田中VPoE
そうだ。急成長中のBtoB SaaS企業が、データ基盤を刷新するシナリオだ。現状分析からアーキテクチャ選定、ロードマップ策定まで一気通貫で戦略を描いてくれ
あなた
Step 1で学んだすべてを統合する演習ですね
田中VPoE
CTO向けの提案書として通用するレベルのドキュメントを目指してくれ。「なぜこのアーキテクチャなのか」を論理的に説明できることが重要だ

ミッション概要

項目内容
演習タイトルデータ戦略ドキュメントの作成
想定時間60分
成果物データ戦略ドキュメント(現状分析 + アーキテクチャ選定 + ロードマップ)
対象企業DataFlow社(BtoB SaaS企業)

前提条件

企業の概要

対象企業: DataFlow社(BtoB SaaS企業)

事業概要:
  - マーケティングオートメーション SaaS を提供
  - 導入企業数: 約1,500社
  - ARR: 15億円(前年比40%成長)
  - 従業員数: 150名(エンジニア60名)

主要データソース:
  - PostgreSQL (アプリケーションDB) -- 顧客、キャンペーン、配信履歴
  - MongoDB (イベントログ) -- ユーザー行動、メール開封/クリック
  - Salesforce (CRM) -- 商談、契約情報
  - HubSpot (マーケティング) -- リード、MQL/SQL
  - Stripe (決済) -- 請求、売上
  - BigQuery (一部の分析チームが独自に構築)

現在のデータ基盤:
  - 各部門がスプレッドシートで独自に集計
  - データチーム2名がBigQueryにETLパイプラインを構築(Airflow)
  - BIツール: Looker(データチームのみが使用)
  - ダッシュボードは20個あるが、10個は放置されている

抱えている問題:
  - 「同じ指標なのに数字が違う」問題が月次経営会議で毎回発生
  - 「アクティブユーザー」の定義が部門ごとに3種類存在
  - チャーン率の計算が手動で、レポート作成に毎月3営業日かかる
  - データチーム(2名)へのリクエスト待ちが平均2週間
  - セルフサービス分析は実現できておらず、SQLを書ける人が限られている
  - 個人情報の取り扱いポリシーが不明確

Mission 1: 現状のデータ成熟度を評価する

要件

DataFlow社のデータ成熟度をL1〜L5のモデルで評価してください。

  1. 5つの評価軸(ガバナンス、アーキテクチャ、品質、組織、活用度)でスコアリングする
  2. 各軸の現状と課題を記述する
  3. 総合成熟度レベルを判定する
解答例

成熟度評価

評価軸現在レベル根拠
ガバナンスL1指標の定義が統一されていない、データオーナーシップが不明確
アーキテクチャL1-L2BigQueryにETLあるが一部のみ、データレイクなし
品質L1データ品質チェックの自動化なし、手動突合に依存
組織L1データチーム2名でボトルネック、セルフサービスなし
活用度L1-L2Looker導入済みだが限定利用、ML/AIは未活用

総合: L1.3(Reactive〜Managed移行段階)

主要課題

  1. Single Source of Truthの欠如: 「アクティブユーザー」定義が3種類
  2. データチームのボトルネック: 2名に全社のリクエストが集中
  3. データ品質の未管理: チェック自動化なし、手動集計に3営業日
  4. ガバナンスの欠如: PIIの取り扱いポリシーが未定義

Mission 2: アーキテクチャの選定

要件

DataFlow社に最適なデータアーキテクチャを選定し、理由を説明してください。

  1. Medallionアーキテクチャを採用するかどうか判断し、理由を述べる
  2. Data Meshを採用するかどうか判断し、理由を述べる
  3. ETL vs ELTのどちらを採用するか決定する
  4. 選定したアーキテクチャの全体像を図示する
解答例

選定結果

パターン採用理由
Medallionアーキテクチャ採用データ品質の段階的向上が必要。Bronze/Silver/Goldで管理
Data Mesh不採用(将来検討)現在L1.3で中央集権型で基盤を固める段階。エンジニア60名でData Meshは時期尚早
ELT採用BigQueryのコンピュートを活用、dbtで変換を管理
Kappa Architecture部分採用イベントログのストリーム処理はKappaで設計

アーキテクチャ全体像

データソース              取り込み              変換               配信
PostgreSQL ──┐      ┌──────────┐       ┌──────────┐      ┌──────────┐
MongoDB    ──┼──→   │ Fivetran │──→    │ BigQuery │──→   │ Looker   │
Salesforce ──┤      │ (EL)     │  Bronze│ + dbt   │ Gold │ ML       │
HubSpot    ──┤      └──────────┘       │ (T)     │      │ Reverse  │
Stripe     ──┘                         └──────────┘      │ ETL     │
                                                          └──────────┘

Mission 3: ロードマップの策定

要件

12ヶ月の導入ロードマップを策定してください。

  1. 4つのフェーズに分割する
  2. 各フェーズのマイルストーンと成果物を定義する
  3. 必要なリソース(人員、ツール、予算)を見積もる
  4. フェーズごとのデータ成熟度の目標レベルを設定する
解答例

12ヶ月ロードマップ

フェーズ期間マイルストーン目標成熟度
Phase 1: 基盤構築Month 1-3Fivetran + BigQuery + dbt導入、主要5テーブルのBronze/Silver/GoldL2
Phase 2: 品質と指標統一Month 4-6指標辞書の整備、データ品質チェック自動化、セルフサービスBIの展開L2-L3
Phase 3: 高度化Month 7-9ストリーム処理導入、データカタログ、リネージL3
Phase 4: ML/分析活用Month 10-12チャーン予測モデル、フィーチャーストア、ダッシュボード最適化L3-L4

リソース計画

リソースPhase 1Phase 2Phase 3Phase 4年間合計
データエンジニア2→3名3名4名4名
アナリティクスエンジニア0名1名1名1名
Fivetran30万円/月30万円/月30万円/月30万円/月360万円
BigQuery20万円/月40万円/月60万円/月80万円/月600万円
Looker50万円/月50万円/月50万円/月50万円/月600万円
人件費増分100万円/月150万円/月200万円/月200万円/月1,950万円
合計約3,510万円

達成度チェック

観点達成基準
成熟度評価5つの評価軸でスコアリングし、総合レベルを判定している
アーキテクチャ選定各パターンの採用/不採用を理由付きで判断している
ロードマップ4フェーズに分割し、マイルストーン・リソース計画がある
実用性CTO向け提案書として通用する品質である

推定所要時間: 60分