セルフサービス分析基盤 - L0 カリキュラム

ストーリー

田

田中VPoE

民主化の原則を理解したところで、次は「どうやって実現するか」の話だ。セルフサービス分析基盤の設計と構築方法を学ぶ

あなた

BIツールを導入すればセルフサービスになるんじゃないですか？

あ

田

田中VPoE

それは最もよくある誤解だ。Lookerを全社展開しても、データが見つけられない、指標の定義が分からない、クエリが遅くてタイムアウトする — こういった問題があれば、結局「データチームに聞く」状態に逆戻りだ

あなた

ツールだけでは不十分なんですね。何が必要なんでしょうか

あ

田

田中VPoE

セルフサービス基盤は4つのレイヤーで構成される。データの発見、理解、アクセス、分析だ。BIツールは「分析」レイヤーの一部に過ぎない。今日は全レイヤーを設計する方法を学ぼう

セルフサービス分析基盤のアーキテクチャ

4層構造

セルフサービス分析基盤の4層構造:

┌─────────────────────────────────────────────────────┐
│  Layer 4: 分析・可視化層                               │
│  BIツール | ダッシュボード | アドホック分析 | エクスポート │
├─────────────────────────────────────────────────────┤
│  Layer 3: アクセス・セキュリティ層                       │
│  RBAC | データマスキング | 行レベルセキュリティ | API      │
├─────────────────────────────────────────────────────┤
│  Layer 2: 理解・意味付け層                              │
│  セマンティックレイヤー | ビジネス用語集 | メトリクス定義   │
├─────────────────────────────────────────────────────┤
│  Layer 1: 発見・検索層                                 │
│  データカタログ | リネージ | 品質スコア | オーナー情報     │
└─────────────────────────────────────────────────────┘

各層の役割と技術選択肢

層	役割	主要ツール例	選定のポイント
発見層	データが「どこにあるか」を見つける	DataHub, Amundsen, Atlan, OpenMetadata	自動収集能力、検索性、カスタマイズ性
理解層	データが「何を意味するか」を理解する	dbt Semantic Layer, Cube, MetriQL	指標の一元管理、バージョン管理
アクセス層	データに「安全にアクセスする」	Apache Ranger, AWS Lake Formation	細粒度制御、監査ログ、自動化
分析層	データを「自ら分析・可視化する」	Looker, Tableau, Superset, Metabase	使いやすさ、コスト、機能の深さ

Layer 1: データカタログ

データカタログの核心機能

機能	説明	ビジネスユーザーへの価値
検索	データセットを名前やタグで検索	「顧客データ」で検索してすぐ見つかる
プロファイリング	カラムの統計情報を自動表示	データの中身をプレビューで確認できる
リネージ	データの流れと変換を可視化	このデータが「どこから来たか」が分かる
品質スコア	データの鮮度・完全性・正確性を表示	「このデータは信頼できるか」が一目で分かる
オーナー情報	データの責任者と問い合わせ先	「誰に聞けばいいか」が分かる
利用状況	人気のデータセット、クエリ事例	他の人がどう使っているかを参考にできる

データカタログの導入パターン

パターン	ツール例	メリット	デメリット
OSS	DataHub, Amundsen, OpenMetadata	コスト低、カスタマイズ自由	運用負荷、開発リソース必要
SaaS	Atlan, Alation, Collibra	運用負荷低、機能豊富	コスト高、カスタマイズ制限
クラウドネイティブ	AWS Glue Data Catalog, GCP Data Catalog	クラウド統合、コスト効率	マルチクラウド対応が弱い

Layer 2: セマンティックレイヤー

なぜセマンティックレイヤーが必要か

セマンティックレイヤーがない場合:

営業部門: 「月間売上 = 注文金額の合計」
経理部門: 「月間売上 = 注文金額 - キャンセル - 返品」
経営企画: 「月間売上 = 注文金額 - キャンセル - 返品 - ポイント利用」

→ 3つの部門で「売上」の数字が異なり、会議が紛糾する

セマンティックレイヤーがある場合:

唯一の定義: 「月間売上(net_revenue) = 注文金額 - キャンセル - 返品 - ポイント利用」
→ 全部門が同じ数字を参照。定義はコード管理され、変更履歴も追跡可能

セマンティックレイヤーの設計

要素	説明	例
エンティティ	ビジネスの実体	顧客、注文、商品
メトリクス	ビジネス指標の定義	月間売上、LTV、解約率
ディメンション	メトリクスの切り口	地域、期間、商品カテゴリ
関係性	エンティティ間のつながり	顧客→注文→商品
アクセスルール	誰がどの指標を見られるか	売上詳細は管理職以上

主要ツールの比較

ツール	アプローチ	特徴	適する組織
dbt Semantic Layer	SQL + YAML定義	dbtエコシステムとの統合、GitOps	dbt導入済み組織
Cube	汎用セマンティックレイヤー	BI非依存、API提供、キャッシュ	マルチBI環境
Looker LookML	モデリング言語	強力なモデリング、Looker専用	Looker利用組織

Layer 3: アクセス制御設計

ロールベースアクセス制御（RBAC）の設計

ロール	対象者	アクセス範囲	制限事項
Viewer	全社員	公開ダッシュボードの閲覧	エクスポート不可、PII非表示
Explorer	マネージャー以上	認定データセットの自由探索	生データへの直接アクセス不可
Analyst	データリテラシー認定者	SQLによるアドホック分析	本番DBへの直接アクセス不可
Admin	データチーム	全データへのアクセス	変更の監査ログ記録

データマスキング戦略

データ分類	マスキング方法	例
氏名	仮名化	田中太郎 → ユーザーA
メールアドレス	部分マスキング	t***@example.com
電話番号	部分マスキング	090-****-1234
住所	一般化	東京都渋谷区*** → 東京都渋谷区
年齢	範囲化	32歳 → 30代

Layer 4: 分析ツール選定

ツール選定のフレームワーク

評価軸	重み	評価項目
使いやすさ	30%	非エンジニアが直感的に操作できるか
機能の深さ	20%	アドホック分析、ダッシュボード、アラート
ガバナンス	20%	RBAC、監査ログ、バージョン管理
スケーラビリティ	15%	同時接続数、クエリ性能、データ量
コスト	15%	ライセンス体系、TCO

主要BIツールの比較

ツール	強み	弱み	適する組織規模
Looker	LookMLによるガバナンス、Git統合	学習コスト高、コスト高	大規模（500名〜）
Tableau	可視化の美しさ、操作性	ガバナンスが弱い、コスト高	中〜大規模
Metabase	簡単導入、OSS版あり	大規模運用に制限	小〜中規模
Superset	OSS、コスト効率	UI洗練度、サポート	技術力のある中規模
Redash	軽量、SQL中心	機能が限定的	小規模、エンジニア中心

セルフサービス基盤の導入ロードマップ

3フェーズアプローチ

フェーズ	期間	施策	成果指標
Phase 1: 可視化	1-3ヶ月	主要KPIダッシュボード構築、BIツール導入	ダッシュボードの週次アクティブユーザー数
Phase 2: セルフサービス	3-6ヶ月	データカタログ導入、セマンティックレイヤー構築、教育	ビジネスユーザー発のクエリ数
Phase 3: 最適化	6-12ヶ月	利用分析による改善、高度な分析機能、自動化	データチームへの定型依頼ゼロ化率

導入のアンチパターン

アンチパターン	症状	対策
ツール先行	BIツールを導入したが誰も使わない	教育とユースケース設計を先行
全データ公開	データカタログに全テーブルを載せて混乱	認定データセットを段階的に公開
教育なし展開	使い方が分からず放置される	部門別のオンボーディングプログラム
メトリクス未定義	各自が独自の指標を作り数字が合わない	セマンティックレイヤーで定義統一

「セルフサービス基盤は”ツール”ではなく”体験”だ。ユーザーが『データを見たい』と思った瞬間から、答えを得るまでの全プロセスを設計しよう」 — 田中VPoE

まとめ

ポイント	内容
4層構造	発見→理解→アクセス→分析の全レイヤーが必要
データカタログ	データの発見性・信頼性・問い合わせ先を可視化
セマンティックレイヤー	指標定義の統一が民主化の鍵
段階的導入	可視化→セルフサービス→最適化の3フェーズで進める

チェックリスト

セルフサービス基盤の4層構造を理解した
データカタログの核心機能と導入パターンを把握した
セマンティックレイヤーの必要性と設計要素を理解した
BIツール選定のフレームワークを把握した
導入ロードマップの3フェーズを理解した

次のステップへ

次は「データリテラシー向上プログラム」を学びます。ツールを導入しても使いこなせなければ意味がありません。組織全体のデータリテラシーを高める方法を身につけましょう。

推定読了時間: 30分