EXERCISE 90分

ストーリー

田中VPoE
ここまでの5つのStepで、データウェアハウス設計に必要なすべての要素を学んだ。最後の総合演習だ
あなた
データ戦略、DWH設計、ストリーム処理、データガバナンス、MLOps…全部ですね
田中VPoE
そうだ。CTOと経営会議に提出する「全社データ基盤設計書」を完成させる。この文書が承認されれば、データ基盤刷新プロジェクトが正式にキックオフする

田中VPoEは真剣な表情で続けました。

田中VPoE
この設計書は「ツールを入れます」という提案ではない。「なぜデータ基盤が必要なのか」「何がどう変わるのか」「投資対効果はどうか」。経営層が「これで進めよう」と意思決定できるレベルにしてくれ
あなた
5つのStepで作った個別の成果物を統合し、一貫性と説得力のある設計書にまとめます

ミッション概要

項目内容
演習タイトル全社データ基盤設計書
想定時間90分
成果物全社データ基盤設計書(経営層承認用)

設計書の構成

以下の7章構成に従って、全社データ基盤設計書を作成してください。

第1章: エグゼクティブサマリー

現状の課題と提案する解決策を1ページにまとめてください。

  • 現状のデータの課題(「同じ指標なのに数字が違う」問題の定量化)
  • データ基盤刷新で実現すること(3つの目標)
  • 投資規模と期待されるROI
解答例

現状: データ成熟度L1.3。「アクティブユーザー」の定義が3種類存在し、月次経営会議で毎回数字の不整合が発生。チャーンレポート作成に毎月3営業日。データチーム(2名)へのリクエスト待ち平均2週間。

提案: 全社データ基盤の構築により、(1) 指標の統一(Single Source of Truth)、(2) セルフサービス分析の実現(リクエスト待ち2週間→即時)、(3) チャーン予測MLモデルによる解約率3%削減を12ヶ月で実現する。

投資: 年間約4,500万円(インフラ1,600万円 + ツール600万円 + 人件費増分2,000万円 + 研修300万円)。チャーン削減効果(推定4,500万円/年)と業務効率化(推定2,000万円/年)に対するROIは44%(初年度)、200%超(3年累計)。


第2章: 現状分析

DataFlow社の現在のデータ環境を分析してください。

  • データ成熟度評価(5軸)
  • 現在のデータフローと課題の可視化
  • ステークホルダーの主要ペインポイント
解答例

データ成熟度評価

評価軸現在12ヶ月後目標ギャップ
ガバナンスL1L3指標定義の統一、データオーナーシップの確立
アーキテクチャL1-L2L3Medallionアーキテクチャ導入、CDC導入
品質L1L3自動品質チェック、品質スコアの可視化
組織L1L2-L3データチーム増員、セルフサービスBI展開
活用度L1-L2L3-L4ML/AI活用、チャーン予測モデル

主要ペインポイント

ステークホルダーペインポイント影響
経営層KPIの数字が部門ごとに異なる意思決定の遅延
マーケティングキャンペーン効果測定に1週間施策の遅延
CSチャーンレポートに3営業日解約予防の遅れ
プロダクトユーザー行動分析ができない機能改善の判断が感覚的
エンジニアデータチームへのリクエスト待ち2週間開発サイクルの遅延

第3章: データアーキテクチャ

データ基盤の全体アーキテクチャを設計してください。

  • Medallionアーキテクチャの設計(Bronze/Silver/Gold)
  • ストレージとコンピュートの構成
  • バッチ処理とストリーム処理の使い分け
解答例

全体アーキテクチャ

データソース          取り込み            変換              配信
PostgreSQL ──CDC──→┌──────────┐      ┌──────────┐     ┌──────────────┐
MongoDB   ──CDC──→│ Debezium │      │ BigQuery │     │ Looker       │
Salesforce ──────→│ Fivetran │─Bronze─→│ + dbt   │─Gold─→│ ML (Feast)  │
HubSpot   ──────→│          │      │          │     │ Reverse ETL  │
Stripe    ──────→└──────────┘      └──────────┘     └──────────────┘
                       │                │
                       │                ├── データ品質: Elementary
                       │                ├── カタログ: DataHub
                  ┌────┴────┐          └── リネージ: OpenLineage
                  │ Kafka   │
                  │ (MSK)   │──→ リアルタイム処理
                  └─────────┘    (メール監視, ユーザートラッキング)

第4章: データガバナンス

データガバナンスの設計を記載してください。

  • ビジネス用語集(主要KPI 5つ以上の統一定義)
  • データ品質フレームワーク(品質スコア、SLA)
  • PII管理ポリシー
解答例

ビジネス用語集(抜粋)

指標公式定義計算式ソース
アクティブユーザー過去30日間に1回以上ログインCOUNT(DISTINCT user_id) WHERE last_login >= today-30fact_user_activity
MRRアクティブサブスク×月額合計SUM(monthly_price) WHERE status=‘ACTIVE’fact_subscription
チャーン率月初Active→月末Inactive割合(月初-月末)/月初mart_monthly_metrics
NRR純収益維持率(期首+拡大-縮小-解約)/期首mart_monthly_metrics
LTV顧客生涯価値ARPU/チャーン率customer_ltv

データ品質SLA

テーブルカテゴリ品質スコア鮮度MTTR
Gold(経営ダッシュボード)95点以上2時間以内4時間以内
Silver(分析用)90点以上4時間以内8時間以内
Bronze(生データ)85点以上1時間以内翌営業日

第5章: MLOps基盤

MLOps基盤の設計を記載してください。

  • フィーチャーストアの設計
  • チャーン予測パイプラインの設計
  • モデルモニタリングの設計
解答例

フィーチャーストア構成

コンポーネントツール用途
フィーチャー定義Feastフィーチャーの宣言的定義
オフラインストアBigQuery学習データの提供
オンラインストアRedis (Memorystore)推論時のフィーチャー提供
マテリアライゼーションAirflowオフライン→オンライン同期

チャーン予測パイプライン

ステップツール頻度
フィーチャー計算dbt → Feast日次
モデル学習XGBoost + MLflow週次 + CTトリガー
モデル評価MLflow学習時
デプロイVertex AI Endpoints承認後自動
モニタリングEvidentlyリアルタイム

第6章: 導入ロードマップ

12ヶ月の導入計画を策定してください。

  • 四半期ごとのマイルストーン
  • 必要なリソース(人員、予算、インフラ)
  • リスクと対策
解答例

12ヶ月ロードマップ

四半期マイルストーン成果
Q1データ基盤構築Fivetran+BigQuery+dbt導入、主要テーブルBronze/Silver/Gold、指標定義統一
Q2ガバナンス+セルフサービスDataHub導入、品質チェック自動化、Lookerの全社展開、CDC導入
Q3リアルタイム+MLKafka導入、メール監視パイプライン、Feast+MLflow導入
Q4最適化+成熟度向上チャーン予測モデル本番化、成熟度L3達成、次年度計画策定

リソース計画

リソースQ1Q2Q3Q4年間
データエンジニア2→3名3→4名4名4名
アナリティクスエンジニア0→1名1名1名1名
インフラ (BigQuery+GCS)60万/月80万/月100万/月120万/月1,080万
ツール (Fivetran+Looker)80万/月80万/月80万/月80万/月960万
Kafka (MSK)0040万/月40万/月240万
人件費増分100万/月150万/月200万/月200万/月1,950万
研修100万50万100万50万300万

第7章: 投資対効果(ROI)

データ基盤刷新の投資対効果を算出してください。

  • 3年間のTCO
  • 定量的な効果
  • リスク調整ROI
解答例

3年間TCO

項目Year 1Year 2Year 3合計
インフラ1,080万1,200万1,200万3,480万
ツール960万960万960万2,880万
Kafka240万480万480万1,200万
人件費増分1,950万2,400万2,400万6,750万
研修300万200万200万700万
合計4,530万5,240万5,240万15,010万

3年間効果

効果年間効果3年合計
チャーン削減(解約率3%→2%、LTV向上)4,500万13,500万
レポート自動化(工数削減)1,200万3,600万
データチームのリクエスト待ち解消800万2,400万
データ品質向上(手動突合の排除)500万1,500万
合計7,000万21,000万

ROI

  • 3年ROI: (21,000 - 15,010) / 15,010 = 40%
  • リスク調整ROI(係数0.6): 40% × 0.6 = 24%
  • 回収期間: 約20ヶ月

達成度チェック

観点達成基準
エグゼクティブサマリー課題・解決策・ROIが1ページにまとまっている
現状分析成熟度評価とペインポイントに基づいた分析
アーキテクチャMedallion + CDC + ストリームの統合設計
ガバナンスビジネス用語集、品質SLA、PII管理が設計されている
MLOpsフィーチャーストアとチャーン予測パイプラインが設計されている
ロードマップ四半期ごとのマイルストーンとリソース計画がある
ROI3年間のTCO、効果、リスク調整ROIが算出されている

推定所要時間: 90分