LESSON 30分

ストーリー

田中VPoE
ここまで集中型のデータアーキテクチャを見てきたが、組織が大きくなると限界が出てくる。データチームがボトルネックになり、リクエストが積み上がる
あなた
確かに、うちのデータチームにも「ダッシュボード作って」「データマート追加して」というリクエストが常に30件以上待ちになっています
田中VPoE
その問題を解決するために生まれたのがData Meshだ。Zhamak Dehghaniが2019年に提唱した。マイクロサービスの考え方をデータに適用したものだと考えるとわかりやすい
あなた
マイクロサービスのように、各チームが自分のデータの責任を持つということですか?
田中VPoE
その通り。ただし「各チームが好き勝手にデータを管理する」のとは違う。4つの原則に基づく規律あるアプローチだ

Data Meshの4つの原則

原則一覧

原則概要マイクロサービスとの類似点
ドメイン所有権データの所有と提供はドメインチームの責任サービスの境界とオーナーシップ
データをプロダクトとして扱うデータを消費者のためにプロダクト化するAPIファーストの設計思想
セルフサービスデータプラットフォームインフラの複雑さを抽象化するプラットフォームPlatform Engineering
連合型ガバナンス分散化しつつもグローバルなポリシーを維持サービスメッシュの統制

1. ドメイン所有権

従来の中央集権型:

  受注チーム ─→ ┌──────────────┐ ─→ ダッシュボード
  配送チーム ─→ │ 中央データチーム │ ─→ レポート
  CS チーム  ─→ │ (ボトルネック)   │ ─→ ML モデル
  営業チーム ─→ └──────────────┘ ─→ 分析

Data Mesh:

  受注チーム ──→ 受注データプロダクト ──┐
  配送チーム ──→ 配送データプロダクト ──┼──→ 消費者
  CS チーム  ──→ CSデータプロダクト  ──┤    (ダッシュボード、
  営業チーム ──→ 営業データプロダクト ──┘     ML、分析)

              各チームがデータの
              品質と提供に責任を持つ

2. データをプロダクトとして扱う

プロダクト属性データプロダクトでの実現
発見可能性データカタログに登録、メタデータの充実
理解しやすさスキーマドキュメント、サンプルクエリの提供
信頼性SLA(鮮度、品質スコア)の定義と遵守
セキュリティアクセスポリシーの明示、PII分類
相互運用性標準フォーマット、共通セマンティクス
データプロダクトの構成:

┌─────────────────────────────────────┐
│         受注データプロダクト            │
│                                      │
│  ┌────────────┐  ┌────────────────┐ │
│  │ ソースデータ │  │ 変換パイプライン  │ │
│  │ (受注DB)    │→│ (dbt models)    │ │
│  └────────────┘  └────────┬───────┘ │
│                           │          │
│  ┌────────────────────────┴───────┐ │
│  │ 出力ポート                       │ │
│  │ ・orders_fact (テーブル)          │ │
│  │ ・orders_stream (ストリーム)      │ │
│  │ ・orders_api (REST API)         │ │
│  └────────────────────────────────┘ │
│                                      │
│  メタデータ: スキーマ、SLA、品質スコア   │
│  オーナー: 受注チーム                   │
│  SLA: 鮮度 < 5分、完全性 > 99.5%      │
└─────────────────────────────────────┘

3. セルフサービスデータプラットフォーム

プラットフォームが提供するもの具体例
データパイプラインの雛形テンプレート化されたdbtプロジェクト
データ品質チェック自動化されたGreat Expectations設定
カタログ登録メタデータの自動収集と登録
アクセス制御ポリシーベースの自動認可
モニタリングデータ鮮度・品質のアラート
コスト管理クエリコストの可視化と予算管理

4. 連合型ガバナンス

レベル決定内容決定者
グローバルポリシーデータフォーマット、PIIの扱い、命名規則データガバナンス委員会
ドメインポリシーデータモデル、品質基準、SLA各ドメインチーム
運用パイプライン実装、テスト、デプロイ各ドメインチーム

Data Meshの導入判断

向いている組織

条件理由
50人以上のエンジニア組織ドメインチームごとにデータ担当を置ける規模が必要
複数の独立した事業ドメインドメイン境界が明確である必要がある
中央データチームがボトルネックData Meshで解決する問題が存在する
マイクロサービスアーキテクチャを採用データの境界とサービスの境界が一致しやすい

向いていない組織

条件理由
10人以下のスタートアップチーム分割の意味がない
単一プロダクトのみドメイン境界が不明確
データエンジニアリングのスキルが低い各チームにデータスキルが必要
データガバナンスが未整備分散化する前に基本的なガバナンスが必要

「Data Meshは銀の弾丸ではない。組織の成熟度がL3以上でなければ、分散化は混乱を生むだけだ。まず中央集権で基盤を固め、成熟してから段階的にData Meshに移行する」 — 田中VPoE


まとめ

ポイント内容
Data Meshマイクロサービスの思想をデータに適用した分散型アーキテクチャ
4つの原則ドメイン所有権、データプロダクト、セルフサービスプラットフォーム、連合型ガバナンス
データプロダクト発見可能・理解しやすい・信頼できる・安全・相互運用可能なデータ
導入判断組織規模、ドメインの独立性、データ成熟度を考慮して判断する

チェックリスト

  • Data Meshの4つの原則を説明できる
  • データプロダクトの構成要素を理解した
  • セルフサービスデータプラットフォームの役割を理解した
  • Data Meshの導入が適切かどうかを判断できる

次のステップへ

次は「Medallionアーキテクチャ」を学びます。Bronze/Silver/Goldの3層構造でデータの品質を段階的に向上させる設計パターンを身につけましょう。


推定読了時間: 30分