演習：データガバナンスポリシーを策定しよう

ストーリー

田

田中VPoE

データガバナンスの基礎、品質管理、プライバシー、パイプライン — 4つのレッスンで理論は学んだ。ここからは実戦だ

あなた

いよいよ実践ですね。どんなシナリオですか？

あ

田

田中VPoE

うちの組織が持つデータ資産をAIに活用したい。顧客データ10万件、社内ドキュメント5万件、チャットログ100万件。だが現状はデータカタログもなく、PII（個人特定情報）の所在も不明だ

あなた

かなりカオスな状態ですね…

あ

田

田中VPoE

そうだ。このカオスを整理し、AIが安全にデータを活用できる状態にする。データ分類とリスク評価、ガバナンスポリシーの策定、パイプラインのアーキテクチャ設計 — この3つをやってもらう

あなた

Step 2で学んだ全てを統合して取り組みます

あ

ミッション概要

ミッション	テーマ	目安時間
Mission 1	データ分類とリスク評価	30分
Mission 2	データガバナンスポリシー策定	30分
Mission 3	データパイプラインのアーキテクチャ設計	30分

前提条件

組織のデータ資産

【顧客データ】10万件
- ソース: Salesforce CRM
- 内容: 氏名、メールアドレス、電話番号、住所、購買履歴、
        問い合わせ履歴、契約内容
- 更新頻度: リアルタイム
- 現状の管理: マーケティング部が管理、アクセス制限あり
- 課題: 一部データが古い（2年以上未更新が15%）

【社内ドキュメント】5万件
- ソース: Confluence, SharePoint, Google Drive（3システム混在）
- 内容: 技術仕様書、会議議事録、社内規定、
        プロジェクト報告書、提案書
- 更新頻度: 不定期（1日50件程度の更新）
- 現状の管理: 各部門が独自管理、一元管理なし
- 課題: 文書内に顧客名・社員名が頻出、
        重複ドキュメントが推定20%存在

【チャットログ】100万件
- ソース: Slack
- 内容: 業務チャット、技術相談、顧客対応記録、
        雑談チャンネル
- 更新頻度: リアルタイム（1日約3,000件増加）
- 現状の管理: Slack上に蓄積のみ、エクスポートなし
- 課題: 個人情報（電話番号、住所等）がメッセージに
        直接記載されているケースあり、
        雑談と業務の区別が困難

AI活用の目標

活用シーン	対象データ	期待効果
社内ヘルプデスクAI	ドキュメント + チャット	問い合わせ対応の50%自動化
顧客インサイト分析	顧客データ + チャット	解約予兆の検知精度80%以上
ナレッジ検索RAG	全データ	必要な情報への到達時間を1/3に短縮

制約条件

外部LLM API（OpenAI等）の利用は社内データに対して禁止方針
AWS上にセルフホストLLM環境を構築済み（Llama 3 70B）
個人情報保護法への準拠が必須
開発チーム: データエンジニア3名、MLエンジニア2名

Mission 1: データ分類とリスク評価（30分）

要件

3つのデータ資産（顧客データ、社内ドキュメント、チャットログ）それぞれについて、以下を実施してください。

データ分類レベル（公開/社内/機密/極秘）を判定する
PII含有リスクを評価する（高/中/低）
AI利用時の主要リスクを3つ以上特定する
リスク軽減策を提案する

期待される成果物

データ分類・リスク評価マトリクスを完成させること。

解答例

データ分類・リスク評価マトリクス

データ資産	分類レベル	PII含有リスク	AI利用可否
顧客データ	Level 3（機密）	高	匿名化後に条件付き許可
社内ドキュメント	Level 2-3（社内-機密混在）	中	PII除去後に許可（社内LLMのみ）
チャットログ	Level 2-3（社内-機密混在）	高	PII除去+フィルタリング後に許可

顧客データのリスク評価

リスク	影響度	発生可能性	対策
PII漏洩（氏名・連絡先）	高	高	匿名化・仮名化の実施
古いデータによるAI精度低下	中	高	2年以上未更新データの除外ルール
バイアス（地域・年齢の偏り）	中	中	データ分布の分析と重み付け調整
個人情報保護法違反	高	中	利用目的の再通知、同意管理

社内ドキュメントのリスク評価

リスク	影響度	発生可能性	対策
文書内の個人名漏洩	中	高	NER（固有表現認識）によるPII検出
重複ドキュメントによるRAG品質低下	低	高	重複検出・除去パイプライン
古い情報がRAGに混入	中	高	更新日時によるフィルタリング、鮮度スコア
3システム間の不整合	低	中	統合メタデータカタログの構築

チャットログのリスク評価

リスク	影響度	発生可能性	対策
直接記載されたPII（電話番号等）	高	高	正規表現+NERによるPII自動検出・マスキング
雑談データの混入による品質低下	低	高	チャンネル分類、業務チャットのみ抽出
プライベートな会話の漏洩	中	中	DMチャンネルの除外、センシティブ内容フィルタ
データ量が膨大でコスト増	低	高	重要度スコアリングによるサンプリング

Mission 2: データガバナンスポリシー策定（30分）

要件

AI利用を前提としたデータガバナンスポリシーを策定してください。以下のセクションを含めること。

ポリシーの目的と適用範囲
組織体制（ロールと責任）
データ分類基準とAI利用ルール
PII取扱い規定
データ品質SLO
インシデント対応手順
監査と見直しのサイクル

解答例

# AIデータガバナンスポリシー v1.0

## 1. 目的と適用範囲

### 目的
本ポリシーは、組織のデータ資産をAIシステムで安全かつ効果的に
活用するための方針を定める。

### 適用範囲
- 対象データ: 顧客データ、社内ドキュメント、チャットログ、
  および今後追加される全データ資産
- 対象システム: 社内LLM（Llama 3 70B）、RAGシステム、
  データパイプライン
- 対象者: データを扱う全従業員

## 2. 組織体制

| ロール | 担当者 | 責任 |
|--------|--------|------|
| データガバナンス委員長 | CTO | 最終意思決定、四半期レビュー |
| 顧客データオーナー | マーケティング部長 | 顧客データのAI利用承認 |
| 業務データオーナー | 各部門長 | 部門データの分類・管理 |
| データスチュワード | データ管理課（2名） | 品質ルール運用、メタデータ管理 |
| データエンジニア | データ基盤チーム（3名） | パイプライン構築・運用 |
| プライバシー担当 | 法務部 | 法規制対応、DPIA実施 |

## 3. データ分類基準とAI利用ルール

### 分類基準
- Level 1（公開）: 外部公開済みの情報
- Level 2（社内）: 社内に限定された情報（PII含まない）
- Level 3（機密）: アクセス制限のある業務情報（PII含む）
- Level 4（極秘）: 経営上の最重要情報

### AI利用ルール
- Level 1-2: 社内LLMでのRAG利用を許可
- Level 3: 匿名化・マスキング後、データオーナーの承認を得て利用
- Level 4: AI利用禁止（技術的にも遮断）

## 4. PII取扱い規定

- 全データは取り込み時にPII自動スキャンを実施
- 検出されたPIIは用途に応じて匿名化またはマスキング
- 匿名化手法: 一般化、仮名化（SHA-256ハッシュ）
- PII検出ツール: Presidio（Microsoft OSS）
- PII含有データの外部LLM APIへの送信は禁止

## 5. データ品質SLO

| データ資産 | 品質スコア目標 | 完全性 | 鮮度 |
|-----------|-------------|--------|------|
| 顧客データ | >= 85 | >= 95% | < 24h |
| 社内ドキュメント | >= 80 | >= 90% | < 7日 |
| チャットログ | >= 75 | >= 85% | < 1h |

品質スコアが目標を3日連続で下回った場合、
データスチュワードが改善チケットを起票する。

## 6. インシデント対応

### PII漏洩時
1. パイプラインの即時停止
2. 影響範囲の特定（リネージュ追跡）
3. 漏洩データの削除
4. データオーナーへの報告（1時間以内）
5. 法務部への報告（当日中）
6. 根本原因分析と再発防止策

### 品質異常時
1. 品質ゲートで自動ブロック
2. データスチュワードへの通知
3. 原因調査と修正
4. 品質スコア回復を確認後にパイプライン再開

## 7. 監査と見直し

- 月次: データ品質レポートのレビュー
- 四半期: ポリシーの見直し、ガバナンス委員会
- 年次: 外部監査、法規制対応の棚卸し
- 随時: 法規制変更時のポリシー更新

Mission 3: データパイプラインのアーキテクチャ設計（30分）

要件

前提条件のデータ資産をAI（RAGシステム）に活用するためのデータパイプラインアーキテクチャを設計してください。以下を含めること。

全体アーキテクチャ図（テキストで可）
各ステージの処理内容と使用ツール
品質ゲートの設計（チェック項目と閾値）
監視・アラートの設計
データバージョニングの方針

解答例

全体アーキテクチャ

[データソース]
├─ Salesforce CRM (顧客データ)
├─ Confluence / SharePoint / Google Drive (ドキュメント)
└─ Slack API (チャットログ)
      │
      ▼
[Stage 1: 取り込み (Ingestion)]
├─ ツール: Apache Airflow (オーケストレーション)
├─ 処理: フォーマット正規化、メタデータ付与
├─ スケジュール:
│   ├ 顧客データ: 日次バッチ
│   ├ ドキュメント: 日次差分同期
│   └ チャット: 準リアルタイム (1時間バッチ)
└─ 格納先: S3 (raw/)
      │
      ▼
[Stage 2: PII検出・処理]
├─ ツール: Microsoft Presidio + カスタムルール
├─ 処理:
│   ├ PII自動検出（NER + 正規表現）
│   ├ 分類レベルの自動判定
│   └ マスキング/匿名化の実行
└─ 格納先: S3 (cleaned/)
      │
      ▼
[Stage 3: 前処理・クレンジング]
├─ ツール: Python (pandas, spaCy)
├─ 処理:
│   ├ テキスト抽出 (PDF, DOCX → plaintext)
│   ├ 重複検出・除去 (MinHash LSH)
│   ├ 言語検出・正規化
│   └ チャット: 業務チャンネルのフィルタリング
└─ 格納先: S3 (processed/)
      │
      ▼
[Stage 4: 品質ゲート]
├─ ツール: Great Expectations
├─ チェック項目:
│   ├ PII残存チェック（ゼロであること）
│   ├ 品質スコア >= 閾値
│   ├ レコード数の異常検出（前回比 ±30%以内）
│   └ テキスト長の妥当性チェック
├─ 合格: 次ステージへ
└─ 不合格: パイプライン停止、データスチュワードに通知
      │
      ▼
[Stage 5: チャンキング + 埋め込み]
├─ ツール: LangChain (chunking) + self-hosted embedding model
├─ チャンキング戦略:
│   ├ ドキュメント: Recursive (512 tokens, overlap 50)
│   ├ チャット: Fixed size (256 tokens, overlap 30)
│   └ 顧客: Structured (フィールド別)
├─ 埋め込み: multilingual-e5-large (self-hosted)
└─ メタデータ: source, classification, quality_score, timestamp
      │
      ▼
[Stage 6: ベクトルDB格納]
├─ ツール: Amazon OpenSearch (k-NN)
├─ インデックス:
│   ├ helpdesk-docs (社内ドキュメント)
│   ├ helpdesk-chat (チャットログ)
│   └ customer-insights (顧客データ)
└─ メタデータストア: PostgreSQL (リネージュ情報)

品質ゲートの設計

チェック項目	閾値	失敗時アクション
PII残存数	0件	パイプライン停止 + セキュリティアラート
品質スコア（ドキュメント）	>= 80	該当ドキュメントをスキップ
品質スコア（チャット）	>= 75	該当チャットをスキップ
レコード数の前回比	±30%以内	Warning通知 + 手動確認
テキスト長	10 - 10,000 tokens	該当レコードをスキップ
重複率	<= 5%	Warning通知
エンコーディングエラー	0件	該当レコードをスキップ + ログ

監視・アラート設計

監視対象	ツール	アラート条件	通知先
パイプライン状態	Airflow + CloudWatch	失敗/タイムアウト	Slack #data-alerts
PII検出	カスタムメトリクス	検出数 > 0 (Stage 4以降)	Slack #security + PagerDuty
品質スコア推移	Grafana	3日連続でSLO未達	データスチュワード
データドリフト	Evidently AI	KS統計量 > 0.15	Slack #ml-ops
コスト	AWS Cost Explorer	月額予算の80%超過	エンジニアリングマネージャー

データバージョニング方針

項目	方針
ツール	DVC + S3
バージョニング単位	データ資産ごと（顧客、ドキュメント、チャット）
命名規則	`v{major}.{minor}.{patch}` (SemVer)
保持ポリシー	直近5バージョン + 各モデル学習時の版
メタデータ	件数、品質スコア、PII処理結果、変更概要
コミットメッセージ	データ変更の概要を必ず記載

達成度チェック

ミッション	テーマ	完了
Mission 1	データ分類とリスク評価
Mission 2	データガバナンスポリシー策定
Mission 3	データパイプラインのアーキテクチャ設計

まとめ

ポイント	内容
データ分類	全データ資産を4段階で分類し、AI利用可否を明確化する
リスク評価	PII含有リスク、品質リスク、法的リスクを網羅的に評価する
ポリシー策定	組織体制、分類基準、品質SLO、インシデント対応を含む包括的なポリシー
パイプライン設計	品質ゲートとPII検出を組み込んだ堅牢なアーキテクチャ

チェックリスト

3つのデータ資産を適切に分類し、リスクを評価できた
AI利用を前提としたガバナンスポリシーを策定できた
品質ゲート付きのデータパイプラインを設計できた
監視・アラートの設計を含めた運用可能な設計ができた
データバージョニングの方針を定義できた

次のステップへ

次は理解度チェックのクイズです。Step 2で学んだデータガバナンスの基礎、品質管理、プライバシー、パイプライン設計の知識を確認しましょう。

推定所要時間: 90分