ストーリー
田中VPoEは真剣な表情で続けました。
ミッション概要
| 項目 | 内容 |
|---|---|
| 演習タイトル | 全社データ基盤設計書 |
| 想定時間 | 90分 |
| 成果物 | 全社データ基盤設計書(経営層承認用) |
設計書の構成
以下の7章構成に従って、全社データ基盤設計書を作成してください。
第1章: エグゼクティブサマリー
現状の課題と提案する解決策を1ページにまとめてください。
- 現状のデータの課題(「同じ指標なのに数字が違う」問題の定量化)
- データ基盤刷新で実現すること(3つの目標)
- 投資規模と期待されるROI
解答例
現状: データ成熟度L1.3。「アクティブユーザー」の定義が3種類存在し、月次経営会議で毎回数字の不整合が発生。チャーンレポート作成に毎月3営業日。データチーム(2名)へのリクエスト待ち平均2週間。
提案: 全社データ基盤の構築により、(1) 指標の統一(Single Source of Truth)、(2) セルフサービス分析の実現(リクエスト待ち2週間→即時)、(3) チャーン予測MLモデルによる解約率3%削減を12ヶ月で実現する。
投資: 年間約4,500万円(インフラ1,600万円 + ツール600万円 + 人件費増分2,000万円 + 研修300万円)。チャーン削減効果(推定4,500万円/年)と業務効率化(推定2,000万円/年)に対するROIは44%(初年度)、200%超(3年累計)。
第2章: 現状分析
DataFlow社の現在のデータ環境を分析してください。
- データ成熟度評価(5軸)
- 現在のデータフローと課題の可視化
- ステークホルダーの主要ペインポイント
解答例
データ成熟度評価
| 評価軸 | 現在 | 12ヶ月後目標 | ギャップ |
|---|---|---|---|
| ガバナンス | L1 | L3 | 指標定義の統一、データオーナーシップの確立 |
| アーキテクチャ | L1-L2 | L3 | Medallionアーキテクチャ導入、CDC導入 |
| 品質 | L1 | L3 | 自動品質チェック、品質スコアの可視化 |
| 組織 | L1 | L2-L3 | データチーム増員、セルフサービスBI展開 |
| 活用度 | L1-L2 | L3-L4 | ML/AI活用、チャーン予測モデル |
主要ペインポイント
| ステークホルダー | ペインポイント | 影響 |
|---|---|---|
| 経営層 | KPIの数字が部門ごとに異なる | 意思決定の遅延 |
| マーケティング | キャンペーン効果測定に1週間 | 施策の遅延 |
| CS | チャーンレポートに3営業日 | 解約予防の遅れ |
| プロダクト | ユーザー行動分析ができない | 機能改善の判断が感覚的 |
| エンジニア | データチームへのリクエスト待ち2週間 | 開発サイクルの遅延 |
第3章: データアーキテクチャ
データ基盤の全体アーキテクチャを設計してください。
- Medallionアーキテクチャの設計(Bronze/Silver/Gold)
- ストレージとコンピュートの構成
- バッチ処理とストリーム処理の使い分け
解答例
全体アーキテクチャ
データソース 取り込み 変換 配信
PostgreSQL ──CDC──→┌──────────┐ ┌──────────┐ ┌──────────────┐
MongoDB ──CDC──→│ Debezium │ │ BigQuery │ │ Looker │
Salesforce ──────→│ Fivetran │─Bronze─→│ + dbt │─Gold─→│ ML (Feast) │
HubSpot ──────→│ │ │ │ │ Reverse ETL │
Stripe ──────→└──────────┘ └──────────┘ └──────────────┘
│ │
│ ├── データ品質: Elementary
│ ├── カタログ: DataHub
┌────┴────┐ └── リネージ: OpenLineage
│ Kafka │
│ (MSK) │──→ リアルタイム処理
└─────────┘ (メール監視, ユーザートラッキング)
第4章: データガバナンス
データガバナンスの設計を記載してください。
- ビジネス用語集(主要KPI 5つ以上の統一定義)
- データ品質フレームワーク(品質スコア、SLA)
- PII管理ポリシー
解答例
ビジネス用語集(抜粋)
| 指標 | 公式定義 | 計算式 | ソース |
|---|---|---|---|
| アクティブユーザー | 過去30日間に1回以上ログイン | COUNT(DISTINCT user_id) WHERE last_login >= today-30 | fact_user_activity |
| MRR | アクティブサブスク×月額合計 | SUM(monthly_price) WHERE status=‘ACTIVE’ | fact_subscription |
| チャーン率 | 月初Active→月末Inactive割合 | (月初-月末)/月初 | mart_monthly_metrics |
| NRR | 純収益維持率 | (期首+拡大-縮小-解約)/期首 | mart_monthly_metrics |
| LTV | 顧客生涯価値 | ARPU/チャーン率 | customer_ltv |
データ品質SLA
| テーブルカテゴリ | 品質スコア | 鮮度 | MTTR |
|---|---|---|---|
| Gold(経営ダッシュボード) | 95点以上 | 2時間以内 | 4時間以内 |
| Silver(分析用) | 90点以上 | 4時間以内 | 8時間以内 |
| Bronze(生データ) | 85点以上 | 1時間以内 | 翌営業日 |
第5章: MLOps基盤
MLOps基盤の設計を記載してください。
- フィーチャーストアの設計
- チャーン予測パイプラインの設計
- モデルモニタリングの設計
解答例
フィーチャーストア構成
| コンポーネント | ツール | 用途 |
|---|---|---|
| フィーチャー定義 | Feast | フィーチャーの宣言的定義 |
| オフラインストア | BigQuery | 学習データの提供 |
| オンラインストア | Redis (Memorystore) | 推論時のフィーチャー提供 |
| マテリアライゼーション | Airflow | オフライン→オンライン同期 |
チャーン予測パイプライン
| ステップ | ツール | 頻度 |
|---|---|---|
| フィーチャー計算 | dbt → Feast | 日次 |
| モデル学習 | XGBoost + MLflow | 週次 + CTトリガー |
| モデル評価 | MLflow | 学習時 |
| デプロイ | Vertex AI Endpoints | 承認後自動 |
| モニタリング | Evidently | リアルタイム |
第6章: 導入ロードマップ
12ヶ月の導入計画を策定してください。
- 四半期ごとのマイルストーン
- 必要なリソース(人員、予算、インフラ)
- リスクと対策
解答例
12ヶ月ロードマップ
| 四半期 | マイルストーン | 成果 |
|---|---|---|
| Q1 | データ基盤構築 | Fivetran+BigQuery+dbt導入、主要テーブルBronze/Silver/Gold、指標定義統一 |
| Q2 | ガバナンス+セルフサービス | DataHub導入、品質チェック自動化、Lookerの全社展開、CDC導入 |
| Q3 | リアルタイム+ML | Kafka導入、メール監視パイプライン、Feast+MLflow導入 |
| Q4 | 最適化+成熟度向上 | チャーン予測モデル本番化、成熟度L3達成、次年度計画策定 |
リソース計画
| リソース | Q1 | Q2 | Q3 | Q4 | 年間 |
|---|---|---|---|---|---|
| データエンジニア | 2→3名 | 3→4名 | 4名 | 4名 | — |
| アナリティクスエンジニア | 0→1名 | 1名 | 1名 | 1名 | — |
| インフラ (BigQuery+GCS) | 60万/月 | 80万/月 | 100万/月 | 120万/月 | 1,080万 |
| ツール (Fivetran+Looker) | 80万/月 | 80万/月 | 80万/月 | 80万/月 | 960万 |
| Kafka (MSK) | 0 | 0 | 40万/月 | 40万/月 | 240万 |
| 人件費増分 | 100万/月 | 150万/月 | 200万/月 | 200万/月 | 1,950万 |
| 研修 | 100万 | 50万 | 100万 | 50万 | 300万 |
第7章: 投資対効果(ROI)
データ基盤刷新の投資対効果を算出してください。
- 3年間のTCO
- 定量的な効果
- リスク調整ROI
解答例
3年間TCO
| 項目 | Year 1 | Year 2 | Year 3 | 合計 |
|---|---|---|---|---|
| インフラ | 1,080万 | 1,200万 | 1,200万 | 3,480万 |
| ツール | 960万 | 960万 | 960万 | 2,880万 |
| Kafka | 240万 | 480万 | 480万 | 1,200万 |
| 人件費増分 | 1,950万 | 2,400万 | 2,400万 | 6,750万 |
| 研修 | 300万 | 200万 | 200万 | 700万 |
| 合計 | 4,530万 | 5,240万 | 5,240万 | 15,010万 |
3年間効果
| 効果 | 年間効果 | 3年合計 |
|---|---|---|
| チャーン削減(解約率3%→2%、LTV向上) | 4,500万 | 13,500万 |
| レポート自動化(工数削減) | 1,200万 | 3,600万 |
| データチームのリクエスト待ち解消 | 800万 | 2,400万 |
| データ品質向上(手動突合の排除) | 500万 | 1,500万 |
| 合計 | 7,000万 | 21,000万 |
ROI
- 3年ROI: (21,000 - 15,010) / 15,010 = 40%
- リスク調整ROI(係数0.6): 40% × 0.6 = 24%
- 回収期間: 約20ヶ月
達成度チェック
| 観点 | 達成基準 |
|---|---|
| エグゼクティブサマリー | 課題・解決策・ROIが1ページにまとまっている |
| 現状分析 | 成熟度評価とペインポイントに基づいた分析 |
| アーキテクチャ | Medallion + CDC + ストリームの統合設計 |
| ガバナンス | ビジネス用語集、品質SLA、PII管理が設計されている |
| MLOps | フィーチャーストアとチャーン予測パイプラインが設計されている |
| ロードマップ | 四半期ごとのマイルストーンとリソース計画がある |
| ROI | 3年間のTCO、効果、リスク調整ROIが算出されている |
推定所要時間: 90分