総合演習：全社データ基盤設計書

ストーリー

田

田中VPoE

ここまでの5つのStepで、データウェアハウス設計に必要なすべての要素を学んだ。最後の総合演習だ

あなた

データ戦略、DWH設計、ストリーム処理、データガバナンス、MLOps…全部ですね

あ

田

田中VPoE

そうだ。CTOと経営会議に提出する「全社データ基盤設計書」を完成させる。この文書が承認されれば、データ基盤刷新プロジェクトが正式にキックオフする

田中VPoEは真剣な表情で続けました。

田

田中VPoE

この設計書は「ツールを入れます」という提案ではない。「なぜデータ基盤が必要なのか」「何がどう変わるのか」「投資対効果はどうか」。経営層が「これで進めよう」と意思決定できるレベルにしてくれ

あなた

5つのStepで作った個別の成果物を統合し、一貫性と説得力のある設計書にまとめます

あ

ミッション概要

項目	内容
演習タイトル	全社データ基盤設計書
想定時間	90分
成果物	全社データ基盤設計書（経営層承認用）

設計書の構成

以下の7章構成に従って、全社データ基盤設計書を作成してください。

第1章: エグゼクティブサマリー

現状の課題と提案する解決策を1ページにまとめてください。

現状のデータの課題（「同じ指標なのに数字が違う」問題の定量化）
データ基盤刷新で実現すること（3つの目標）
投資規模と期待されるROI

解答例

現状: データ成熟度L1.3。「アクティブユーザー」の定義が3種類存在し、月次経営会議で毎回数字の不整合が発生。チャーンレポート作成に毎月3営業日。データチーム（2名）へのリクエスト待ち平均2週間。

提案: 全社データ基盤の構築により、(1) 指標の統一（Single Source of Truth）、(2) セルフサービス分析の実現（リクエスト待ち2週間→即時）、(3) チャーン予測MLモデルによる解約率3%削減を12ヶ月で実現する。

投資: 年間約4,500万円（インフラ1,600万円 + ツール600万円 + 人件費増分2,000万円 + 研修300万円）。チャーン削減効果（推定4,500万円/年）と業務効率化（推定2,000万円/年）に対するROIは44%（初年度）、200%超（3年累計）。

第2章: 現状分析

DataFlow社の現在のデータ環境を分析してください。

データ成熟度評価（5軸）
現在のデータフローと課題の可視化
ステークホルダーの主要ペインポイント

解答例

データ成熟度評価

評価軸	現在	12ヶ月後目標	ギャップ
ガバナンス	L1	L3	指標定義の統一、データオーナーシップの確立
アーキテクチャ	L1-L2	L3	Medallionアーキテクチャ導入、CDC導入
品質	L1	L3	自動品質チェック、品質スコアの可視化
組織	L1	L2-L3	データチーム増員、セルフサービスBI展開
活用度	L1-L2	L3-L4	ML/AI活用、チャーン予測モデル

主要ペインポイント

ステークホルダー	ペインポイント	影響
経営層	KPIの数字が部門ごとに異なる	意思決定の遅延
マーケティング	キャンペーン効果測定に1週間	施策の遅延
CS	チャーンレポートに3営業日	解約予防の遅れ
プロダクト	ユーザー行動分析ができない	機能改善の判断が感覚的
エンジニア	データチームへのリクエスト待ち2週間	開発サイクルの遅延

第3章: データアーキテクチャ

データ基盤の全体アーキテクチャを設計してください。

Medallionアーキテクチャの設計（Bronze/Silver/Gold）
ストレージとコンピュートの構成
バッチ処理とストリーム処理の使い分け

解答例

全体アーキテクチャ

データソース          取り込み            変換              配信
PostgreSQL ──CDC──→┌──────────┐      ┌──────────┐     ┌──────────────┐
MongoDB   ──CDC──→│ Debezium │      │ BigQuery │     │ Looker       │
Salesforce ──────→│ Fivetran │─Bronze─→│ + dbt   │─Gold─→│ ML (Feast)  │
HubSpot   ──────→│          │      │          │     │ Reverse ETL  │
Stripe    ──────→└──────────┘      └──────────┘     └──────────────┘
                       │                │
                       │                ├── データ品質: Elementary
                       │                ├── カタログ: DataHub
                  ┌────┴────┐          └── リネージ: OpenLineage
                  │ Kafka   │
                  │ (MSK)   │──→ リアルタイム処理
                  └─────────┘    (メール監視, ユーザートラッキング)

第4章: データガバナンス

データガバナンスの設計を記載してください。

ビジネス用語集（主要KPI 5つ以上の統一定義）
データ品質フレームワーク（品質スコア、SLA）
PII管理ポリシー

解答例

ビジネス用語集（抜粋）

指標	公式定義	計算式	ソース
アクティブユーザー	過去30日間に1回以上ログイン	COUNT(DISTINCT user_id) WHERE last_login >= today-30	fact_user_activity
MRR	アクティブサブスク×月額合計	SUM(monthly_price) WHERE status=‘ACTIVE’	fact_subscription
チャーン率	月初Active→月末Inactive割合	(月初-月末)/月初	mart_monthly_metrics
NRR	純収益維持率	(期首+拡大-縮小-解約)/期首	mart_monthly_metrics
LTV	顧客生涯価値	ARPU/チャーン率	customer_ltv

データ品質SLA

テーブルカテゴリ	品質スコア	鮮度	MTTR
Gold（経営ダッシュボード）	95点以上	2時間以内	4時間以内
Silver（分析用）	90点以上	4時間以内	8時間以内
Bronze（生データ）	85点以上	1時間以内	翌営業日

第5章: MLOps基盤

MLOps基盤の設計を記載してください。

フィーチャーストアの設計
チャーン予測パイプラインの設計
モデルモニタリングの設計

解答例

フィーチャーストア構成

コンポーネント	ツール	用途
フィーチャー定義	Feast	フィーチャーの宣言的定義
オフラインストア	BigQuery	学習データの提供
オンラインストア	Redis (Memorystore)	推論時のフィーチャー提供
マテリアライゼーション	Airflow	オフライン→オンライン同期

チャーン予測パイプライン

ステップ	ツール	頻度
フィーチャー計算	dbt → Feast	日次
モデル学習	XGBoost + MLflow	週次 + CTトリガー
モデル評価	MLflow	学習時
デプロイ	Vertex AI Endpoints	承認後自動
モニタリング	Evidently	リアルタイム

第6章: 導入ロードマップ

12ヶ月の導入計画を策定してください。

四半期ごとのマイルストーン
必要なリソース（人員、予算、インフラ）
リスクと対策

解答例

12ヶ月ロードマップ

四半期	マイルストーン	成果
Q1	データ基盤構築	Fivetran+BigQuery+dbt導入、主要テーブルBronze/Silver/Gold、指標定義統一
Q2	ガバナンス+セルフサービス	DataHub導入、品質チェック自動化、Lookerの全社展開、CDC導入
Q3	リアルタイム+ML	Kafka導入、メール監視パイプライン、Feast+MLflow導入
Q4	最適化+成熟度向上	チャーン予測モデル本番化、成熟度L3達成、次年度計画策定

リソース計画

リソース	Q1	Q2	Q3	Q4	年間
データエンジニア	2→3名	3→4名	4名	4名	—
アナリティクスエンジニア	0→1名	1名	1名	1名	—
インフラ (BigQuery+GCS)	60万/月	80万/月	100万/月	120万/月	1,080万
ツール (Fivetran+Looker)	80万/月	80万/月	80万/月	80万/月	960万
Kafka (MSK)	0	0	40万/月	40万/月	240万
人件費増分	100万/月	150万/月	200万/月	200万/月	1,950万
研修	100万	50万	100万	50万	300万

第7章: 投資対効果（ROI）

データ基盤刷新の投資対効果を算出してください。

3年間のTCO
定量的な効果
リスク調整ROI

解答例

3年間TCO

項目	Year 1	Year 2	Year 3	合計
インフラ	1,080万	1,200万	1,200万	3,480万
ツール	960万	960万	960万	2,880万
Kafka	240万	480万	480万	1,200万
人件費増分	1,950万	2,400万	2,400万	6,750万
研修	300万	200万	200万	700万
合計	4,530万	5,240万	5,240万	15,010万

3年間効果

効果	年間効果	3年合計
チャーン削減（解約率3%→2%、LTV向上）	4,500万	13,500万
レポート自動化（工数削減）	1,200万	3,600万
データチームのリクエスト待ち解消	800万	2,400万
データ品質向上（手動突合の排除）	500万	1,500万
合計	7,000万	21,000万

ROI

3年ROI: (21,000 - 15,010) / 15,010 = 40%
リスク調整ROI（係数0.6）: 40% × 0.6 = 24%
回収期間: 約20ヶ月

達成度チェック

観点	達成基準
エグゼクティブサマリー	課題・解決策・ROIが1ページにまとまっている
現状分析	成熟度評価とペインポイントに基づいた分析
アーキテクチャ	Medallion + CDC + ストリームの統合設計
ガバナンス	ビジネス用語集、品質SLA、PII管理が設計されている
MLOps	フィーチャーストアとチャーン予測パイプラインが設計されている
ロードマップ	四半期ごとのマイルストーンとリソース計画がある
ROI	3年間のTCO、効果、リスク調整ROIが算出されている

推定所要時間: 90分