LESSON 30分

Modern Data Stackの構成要素

田中VPoE「データパイプラインの基本は理解できたね。次は、今のデータエンジニアリング業界で標準となっている『Modern Data Stack』について学ぼう。」

あなた「Modern Data Stackって、具体的にはどういうものですか?」

田中VPoE「一言で言うと、クラウドネイティブなSaaSツール群を組み合わせてデータ基盤を構築するアプローチだ。従来のオンプレミス型Hadoop基盤とは根本的に思想が異なる。」

Modern Data Stackとは

Modern Data Stack(MDS)は、クラウドネイティブなSaaSツールを組み合わせて構築するデータ基盤アーキテクチャです。2020年前後から急速に普及し、現在のデータエンジニアリングの標準的なアプローチとなっています。

従来のデータ基盤との比較

レガシー vs Modern Data Stack

項目レガシー(Hadoop時代)Modern Data Stack
インフラオンプレミスクラウド(SaaS)
スケーリング事前にクラスタ設計オンデマンドで自動スケール
初期コスト数千万円〜無料〜月額数万円で開始
運用負荷インフラチームが必要マネージドサービスで軽減
変換言語Java/Scala(MapReduce)SQL中心
導入期間数ヶ月〜1年数日〜数週間

MDSが普及した背景

  1. クラウドDWHの進化:BigQuery、Snowflakeの登場でストレージと計算が分離
  2. SaaSの成熟:各レイヤーで専門ツールが充実
  3. SQLの復権:データエンジニアだけでなくアナリストも変換処理を書ける
  4. コスト構造の変化:従量課金でスモールスタートが可能

MDSの各レイヤー

レイヤー構成図

┌─────────────────────────────────────────────┐
│           Consumption Layer                  │
│     Looker / Tableau / Metabase / Superset   │
├─────────────────────────────────────────────┤
│           Transformation Layer               │
│              dbt / Dataform                  │
├─────────────────────────────────────────────┤
│           Storage Layer                      │
│     BigQuery / Snowflake / Redshift          │
├─────────────────────────────────────────────┤
│           Ingestion Layer                    │
│     Fivetran / Airbyte / Stitch              │
├─────────────────────────────────────────────┤
│           Data Sources                       │
│   SaaS / DB / API / ファイル / IoT           │
└─────────────────────────────────────────────┘

       Orchestration: Airflow / Dagster / Prefect
       Observability: Monte Carlo / Elementary

各レイヤーの詳細

1. Ingestion Layer(データ取り込み)

ツール特徴料金モデル
Fivetran300+コネクタ、フルマネージドMAR課金
AirbyteOSS、カスタムコネクタ対応無料(OSS版)
Stitchシンプル、Singer準拠行数課金
Embulkバルクロード特化、プラグイン豊富無料(OSS)

2. Storage Layer(データ格納)

ツール特徴コンピュートモデル
BigQueryサーバーレス、Google Cloudオンデマンド/定額
Snowflakeマルチクラウド、仮想ウェアハウスクレジット課金
RedshiftAWSネイティブ、Spectrum連携ノード課金
DatabricksLakehouse、Spark基盤DBU課金

3. Transformation Layer(データ変換)

ツール特徴言語
dbtSQL変換のデファクトスタンダードSQL + Jinja
DataformGoogle Cloud連携、SQLxSQLX
Spark大規模分散処理Python/SQL/Scala

4. Orchestration Layer(オーケストレーション)

ツール特徴学習コスト
Apache Airflowデファクトスタンダード、Python DAG中〜高
Dagsterアセット指向、型安全
PrefectシンプルAPI、フロー指向低〜中
Mageノートブック風UI

5. Consumption Layer(データ活用)

ツール特徴対象ユーザー
LookerLookML、セマンティックレイヤーアナリスト
Tableau直感的なビジュアル分析ビジネスユーザー
MetabaseOSS、セルフサービスBI全社
SupersetOSS、Apache Foundationエンジニア寄り

典型的なMDSアーキテクチャ例

NetShop社の場合

[MySQL] ──→ [Airbyte] ──→ [BigQuery] ──→ [dbt] ──→ [Looker]
[Stripe API]     │              │                       │
[GA4]       ─────┘         [Raw Layer]            [Mart Layer]
                           [Staging]              [Dashboard]
                           [Mart]
レイヤーツール選定理由
IngestionAirbyteOSSでコスト抑制、MySQL/APIコネクタ充実
StorageBigQueryGCPを既に利用、サーバーレスで運用楽
TransformdbtSQL中心でアナリストも参加できる
OrchestrationAirflow実績豊富、Cloud Composer利用可
BILookerBigQueryとの親和性、セマンティックレイヤー

まとめ

項目ポイント
MDSの特徴クラウドネイティブ、SaaS組み合わせ、SQL中心
5つのレイヤーIngestion → Storage → Transform → Orchestration → Consumption
従来との違いオンデマンドスケール、低い初期コスト、運用負荷の軽減
ツール選定組織の規模・スキル・既存環境に応じて選択

チェックリスト

  • Modern Data Stackの5つのレイヤーを説明できる
  • 従来のHadoop基盤との違いを理解している
  • 各レイヤーの代表的なツールを2つ以上挙げられる
  • MDSが普及した背景を説明できる

次のステップへ

Modern Data Stackの全体像を把握しました。次は、MDSの中核であるデータウェアハウスの設計思想について深掘りしましょう。


推定読了時間:30分