データガバナンスの基礎 - L0 カリキュラム

ストーリー

田

田中VPoE

AIの導入が進んでいるが、ここで根本的な問いを投げかけたい。AIの精度を決めるのは何だと思う？

あなた

モデルの性能…ではなく、データの品質ですか？

あ

田

田中VPoE

その通りだ。「Garbage In, Garbage Out」は古くからの格言だが、AI時代ではその影響がさらに増幅される。だが、うちの組織のデータの現状を見てくれ

田中VPoEがダッシュボードを開きます。顧客データベース、社内ドキュメント管理、チャットログ、IoTセンサーデータ — 各システムが独立して動いており、データの所在すら把握できていません。

あなた

データがサイロ化していて、品質も分類もバラバラですね…

あ

田

田中VPoE

そうだ。AIに食わせるデータの品質が担保されなければ、どんなに優秀なモデルも使い物にならない。まずはデータガバナンスの基盤を作る。これが今回のステップのテーマだ

あなた

データガバナンスの全体像から理解していきます

あ

データガバナンスとは

定義

データガバナンスとは、組織のデータ資産を効果的に管理するための方針、プロセス、組織体制、技術の総合的なフレームワークです。

観点	内容
目的	データの品質・セキュリティ・利活用を組織横断で最適化する
対象	構造化データ、非構造化データ、メタデータ、データフロー
手段	ポリシー策定、ロール定義、ツール導入、監査プロセス
成果	信頼できるデータに基づく意思決定とAI活用の実現

なぜ今データガバナンスが重要なのか

従来のBI時代:
  データ → ダッシュボード → 人間が判断
  ⇒ 人間がデータの異常に気づける

AI時代:
  データ → モデル学習/RAG → AIが判断支援 → 人間が行動
  ⇒ データの問題がAIの判断に直接影響し、検出が困難

AI活用においてデータガバナンスが特に重要になる理由を整理します。

AI固有の課題	影響	ガバナンスでの対処
学習データのバイアス	AIの判断に偏りが生じる	データの多様性・公平性の基準を定義
個人情報の混入	プライバシー侵害・法令違反	データ分類と匿名化ポリシーの適用
データドリフト	モデル精度の劣化	定期的なデータプロファイリングの実施
出所不明のデータ	品質保証・監査が不可能	データリネージュの管理
規制対応	GDPR/AI規制法への違反リスク	コンプライアンスフレームワークの整備

AI時代のデータガバナンスフレームワーク

DAMA-DMBOK2（Data Management Body of Knowledge）をベースに、AI活用に必要な要素を追加したフレームワークを構築します。

DAMA-DMBOK2の11の知識領域

# DAMA-DMBOK2 知識領域（AI拡張版）
data_governance_framework:
  core:
    - name: "データガバナンス"
      description: "全体の方針・組織・プロセスの統括"
      ai_extension: "AI倫理ポリシー、モデルガバナンスとの連携"

  operational:
    - name: "データ品質管理"
      ai_extension: "バイアス検出、ドリフト監視"
    - name: "メタデータ管理"
      ai_extension: "埋め込みモデル情報、プロンプトテンプレート管理"
    - name: "データセキュリティ"
      ai_extension: "LLMへのデータ流出防止"
    - name: "マスタデータ管理"
      ai_extension: "RAG用の正規化データソース管理"

  architectural:
    - name: "データアーキテクチャ"
      ai_extension: "ベクトルDB、特徴量ストア設計"
    - name: "データモデリング"
      ai_extension: "非構造化データのスキーマ定義"
    - name: "データストレージ"
      ai_extension: "埋め込みベクトルの保存戦略"

  enabling:
    - name: "データ統合と相互運用"
      ai_extension: "マルチモーダルデータの統合"
    - name: "ドキュメントとコンテンツ管理"
      ai_extension: "RAGソースドキュメントの版管理"
    - name: "参照データとマスタデータ"
      ai_extension: "ファインチューニング用ラベルデータ管理"

フレームワークの階層構造

階層	内容	具体例
戦略層	データガバナンスの方針・目標	「AIに利用するデータは品質スコア80以上」
組織層	ロールと責任の定義	データオーナー、スチュワード、エンジニアの任命
プロセス層	データライフサイクル管理	取得→分類→品質管理→利用→廃棄
技術層	ツールと自動化	データカタログ、品質チェック、リネージュ追跡

データガバナンス組織体制

3つの主要ロール

// データガバナンス組織のロール定義
interface DataGovernanceRoles {
  dataOwner: {
    role: "データオーナー";
    level: "事業部門の責任者（部長以上）";
    responsibilities: [
      "データの品質基準を定義する",
      "データのアクセス権限を承認する",
      "AI利用の可否を最終判断する",
      "データ関連インシデントの最終責任を負う"
    ];
    count: "データドメインごとに1名";
  };
  dataSteward: {
    role: "データスチュワード";
    level: "実務レベルの管理者";
    responsibilities: [
      "データ品質ルールを策定・運用する",
      "メタデータを維持管理する",
      "データオーナーと技術チームの橋渡し",
      "データ品質レポートを作成する"
    ];
    count: "データドメインごとに1-2名";
  };
  dataEngineer: {
    role: "データエンジニア";
    level: "技術実装担当";
    responsibilities: [
      "データパイプラインを構築・運用する",
      "品質チェックの自動化を実装する",
      "データカタログを技術的に維持する",
      "ベクトルDB・埋め込みパイプラインを運用する"
    ];
    count: "チームに必要な人数";
  };
}

ガバナンス組織図

┌──────────────────────────────────────────┐
│        CDO / データガバナンス委員会         │
│   ・全社方針の決定                         │
│   ・AI倫理方針の策定                       │
│   ・四半期レビューの実施                    │
└──────────────┬───────────────────────────┘
               │
    ┌──────────┼──────────┐
    ▼          ▼          ▼
┌────────┐ ┌────────┐ ┌────────┐
│顧客データ│ │業務データ│ │AI/MLデータ│
│ドメイン  │ │ドメイン  │ │ドメイン   │
├────────┤ ├────────┤ ├─────────┤
│Owner   │ │Owner   │ │Owner    │
│Steward │ │Steward │ │Steward  │
│Engineer│ │Engineer│ │Engineer │
└────────┘ └────────┘ └─────────┘

RACI マトリクス

活動	データオーナー	データスチュワード	データエンジニア	CDO
データ分類の定義	A	R	C	I
品質ルール策定	A	R	C	I
パイプライン構築	I	C	R	I
アクセス権限承認	R	C	I	A
AI利用可否判断	R	C	I	A
インシデント対応	A	R	R	I

R: Responsible（実行）、A: Accountable（承認）、C: Consulted（相談）、I: Informed（報告）

メタデータ管理とデータカタログ

メタデータの種類

種類	内容	AI活用での重要性
技術メタデータ	スキーマ、型、フォーマット	データパイプラインの自動化
ビジネスメタデータ	定義、所有者、利用目的	AI利用の適切性判断
運用メタデータ	更新頻度、データ量、品質スコア	モデルの信頼性評価
リネージュメタデータ	データの出所、変換履歴	監査対応、バイアス追跡
AI固有メタデータ	埋め込みモデル、チャンク戦略	RAG精度の最適化

データカタログの実装

# データカタログのエントリ例
catalog_entry:
  id: "customer_profile_v3"
  name: "顧客プロファイルデータ"
  domain: "顧客データ"
  owner: "マーケティング部 山田部長"
  steward: "データ管理課 鈴木"

  technical:
    source_system: "CRM (Salesforce)"
    format: "Parquet"
    schema_version: "3.2.1"
    record_count: 105_000
    update_frequency: "daily"
    storage: "s3://data-lake/customer/profile/"

  quality:
    completeness: 0.95
    accuracy: 0.92
    freshness: "< 24h"
    quality_score: 87

  classification:
    sensitivity: "機密"
    pii_contains: true
    pii_fields: ["email", "phone", "address"]
    retention_period: "5年"
    gdpr_relevant: true

  ai_usage:
    approved_for_training: false
    approved_for_rag: true
    anonymization_required: true
    embedding_model: "text-embedding-3-small"
    last_embedded: "2026-02-15"
    chunk_strategy: "semantic"
    vector_db: "Pinecone"

主要なデータカタログツール

ツール	特徴	適用シーン
DataHub (LinkedIn OSS)	メタデータグラフ、リネージュ	大規模組織、マイクロサービス
Apache Atlas	Hadoop エコシステム統合	データレイク中心の組織
Amundsen (Lyft OSS)	検索特化、使いやすいUI	データディスカバリー重視
AWS Glue Data Catalog	AWS統合、サーバーレス	AWSメインの組織
Google Data Catalog	GCP統合、BigQuery連携	GCPメインの組織
Collibra	エンタープライズ向け、ワークフロー	大企業、規制産業

データガバナンス成熟度モデル

5段階の成熟度レベル

レベル	名称	特徴	AI活用の状態
Level 1	Initial（初期）	ガバナンスなし。データは各チームが個別管理	AI利用は試行段階、品質問題頻発
Level 2	Managed（管理）	一部ルールが存在するが属人的	RAGは動くが精度が不安定
Level 3	Defined（定義）	組織的な方針・プロセスが定義されている	AI向けデータパイプラインが整備
Level 4	Measured（計測）	品質指標で定量管理、自動化が進行	モデル精度とデータ品質の相関を追跡
Level 5	Optimized（最適化）	継続的改善、予測的な品質管理	データドリフトの自動検出・対処

成熟度評価の軸

// 成熟度評価の6軸
interface MaturityAssessment {
  axes: {
    organization: {
      name: "組織体制";
      level1: "データ管理の担当者がいない";
      level3: "データオーナー・スチュワードが任命されている";
      level5: "CDOが設置され、全社的なガバナンス委員会が機能";
    };
    policy: {
      name: "ポリシー";
      level1: "データ利用ルールが存在しない";
      level3: "分類基準・利用ポリシーが文書化されている";
      level5: "ポリシーが自動適用され、違反が即座に検出される";
    };
    quality: {
      name: "品質管理";
      level1: "品質チェックなし";
      level3: "品質ルールが定義され定期チェックが実施される";
      level5: "リアルタイム品質監視と自動修復が稼働";
    };
    metadata: {
      name: "メタデータ";
      level1: "メタデータが管理されていない";
      level3: "データカタログが整備され検索可能";
      level5: "リネージュの自動追跡、AIによるメタデータ推奨";
    };
    security: {
      name: "セキュリティ";
      level1: "アクセス制御が不十分";
      level3: "データ分類に基づくアクセス制御が実装";
      level5: "ゼロトラスト、動的アクセス制御、監査ログ完備";
    };
    compliance: {
      name: "コンプライアンス";
      level1: "規制要件を把握していない";
      level3: "主要規制への対応が完了し、監査に対応可能";
      level5: "規制変更の自動追跡、プロアクティブな対応";
    };
  };
}

成熟度向上のロードマップ

フェーズ	期間	主な取り組み
Phase 1: 基盤構築	1-3ヶ月	組織体制の確立、データ棚卸し、分類基準策定
Phase 2: プロセス整備	3-6ヶ月	品質ルール策定、カタログ導入、ポリシー文書化
Phase 3: 自動化	6-12ヶ月	品質チェック自動化、リネージュ追跡、監視基盤
Phase 4: 最適化	12ヶ月以降	予測的品質管理、AIドリフト自動検出、継続改善

まとめ

ポイント	内容
データガバナンスの定義	データの品質・セキュリティ・利活用を統合管理するフレームワーク
AI時代の特殊性	バイアス、プライバシー、ドリフトなどAI固有のリスクへの対処が必要
フレームワーク	DAMA-DMBOK2ベースにAI拡張を加えた11領域
組織体制	データオーナー・スチュワード・エンジニアの3層構造
メタデータ管理	データカタログによるメタデータの一元管理が基盤
成熟度モデル	5段階で現状を評価し、段階的に向上させる

チェックリスト

データガバナンスの定義と重要性を理解した
AI時代にデータガバナンスが特に重要になる理由を説明できる
DAMA-DMBOK2ベースのフレームワークを把握した
3つの主要ロール（オーナー、スチュワード、エンジニア）の責務を区別できる
データカタログの役割と構成要素を理解した
成熟度モデルで組織の現状を評価する方法を理解した

次のステップへ

次は「データ品質管理」を学びます。AI向けデータの品質をどう定義し、測定し、改善するかを深掘りしましょう。

推定読了時間: 30分