EXERCISE 90分

ストーリー

田中VPoE
データガバナンスの基礎、品質管理、プライバシー、パイプライン — 4つのレッスンで理論は学んだ。ここからは実戦だ
あなた
いよいよ実践ですね。どんなシナリオですか?
田中VPoE
うちの組織が持つデータ資産をAIに活用したい。顧客データ10万件、社内ドキュメント5万件、チャットログ100万件。だが現状はデータカタログもなく、PII(個人特定情報)の所在も不明だ
あなた
かなりカオスな状態ですね…
田中VPoE
そうだ。このカオスを整理し、AIが安全にデータを活用できる状態にする。データ分類とリスク評価、ガバナンスポリシーの策定、パイプラインのアーキテクチャ設計 — この3つをやってもらう
あなた
Step 2で学んだ全てを統合して取り組みます

ミッション概要

ミッションテーマ目安時間
Mission 1データ分類とリスク評価30分
Mission 2データガバナンスポリシー策定30分
Mission 3データパイプラインのアーキテクチャ設計30分

前提条件

組織のデータ資産

【顧客データ】10万件
- ソース: Salesforce CRM
- 内容: 氏名、メールアドレス、電話番号、住所、購買履歴、
        問い合わせ履歴、契約内容
- 更新頻度: リアルタイム
- 現状の管理: マーケティング部が管理、アクセス制限あり
- 課題: 一部データが古い(2年以上未更新が15%)

【社内ドキュメント】5万件
- ソース: Confluence, SharePoint, Google Drive(3システム混在)
- 内容: 技術仕様書、会議議事録、社内規定、
        プロジェクト報告書、提案書
- 更新頻度: 不定期(1日50件程度の更新)
- 現状の管理: 各部門が独自管理、一元管理なし
- 課題: 文書内に顧客名・社員名が頻出、
        重複ドキュメントが推定20%存在

【チャットログ】100万件
- ソース: Slack
- 内容: 業務チャット、技術相談、顧客対応記録、
        雑談チャンネル
- 更新頻度: リアルタイム(1日約3,000件増加)
- 現状の管理: Slack上に蓄積のみ、エクスポートなし
- 課題: 個人情報(電話番号、住所等)がメッセージに
        直接記載されているケースあり、
        雑談と業務の区別が困難

AI活用の目標

活用シーン対象データ期待効果
社内ヘルプデスクAIドキュメント + チャット問い合わせ対応の50%自動化
顧客インサイト分析顧客データ + チャット解約予兆の検知精度80%以上
ナレッジ検索RAG全データ必要な情報への到達時間を1/3に短縮

制約条件

  • 外部LLM API(OpenAI等)の利用は社内データに対して禁止方針
  • AWS上にセルフホストLLM環境を構築済み(Llama 3 70B)
  • 個人情報保護法への準拠が必須
  • 開発チーム: データエンジニア3名、MLエンジニア2名

Mission 1: データ分類とリスク評価(30分)

要件

3つのデータ資産(顧客データ、社内ドキュメント、チャットログ)それぞれについて、以下を実施してください。

  1. データ分類レベル(公開/社内/機密/極秘)を判定する
  2. PII含有リスクを評価する(高/中/低)
  3. AI利用時の主要リスクを3つ以上特定する
  4. リスク軽減策を提案する

期待される成果物

データ分類・リスク評価マトリクスを完成させること。

解答例

データ分類・リスク評価マトリクス

データ資産分類レベルPII含有リスクAI利用可否
顧客データLevel 3(機密)匿名化後に条件付き許可
社内ドキュメントLevel 2-3(社内-機密混在)PII除去後に許可(社内LLMのみ)
チャットログLevel 2-3(社内-機密混在)PII除去+フィルタリング後に許可

顧客データのリスク評価

リスク影響度発生可能性対策
PII漏洩(氏名・連絡先)匿名化・仮名化の実施
古いデータによるAI精度低下2年以上未更新データの除外ルール
バイアス(地域・年齢の偏り)データ分布の分析と重み付け調整
個人情報保護法違反利用目的の再通知、同意管理

社内ドキュメントのリスク評価

リスク影響度発生可能性対策
文書内の個人名漏洩NER(固有表現認識)によるPII検出
重複ドキュメントによるRAG品質低下重複検出・除去パイプライン
古い情報がRAGに混入更新日時によるフィルタリング、鮮度スコア
3システム間の不整合統合メタデータカタログの構築

チャットログのリスク評価

リスク影響度発生可能性対策
直接記載されたPII(電話番号等)正規表現+NERによるPII自動検出・マスキング
雑談データの混入による品質低下チャンネル分類、業務チャットのみ抽出
プライベートな会話の漏洩DMチャンネルの除外、センシティブ内容フィルタ
データ量が膨大でコスト増重要度スコアリングによるサンプリング

Mission 2: データガバナンスポリシー策定(30分)

要件

AI利用を前提としたデータガバナンスポリシーを策定してください。以下のセクションを含めること。

  1. ポリシーの目的と適用範囲
  2. 組織体制(ロールと責任)
  3. データ分類基準とAI利用ルール
  4. PII取扱い規定
  5. データ品質SLO
  6. インシデント対応手順
  7. 監査と見直しのサイクル
解答例
# AIデータガバナンスポリシー v1.0

## 1. 目的と適用範囲

### 目的
本ポリシーは、組織のデータ資産をAIシステムで安全かつ効果的に
活用するための方針を定める。

### 適用範囲
- 対象データ: 顧客データ、社内ドキュメント、チャットログ、
  および今後追加される全データ資産
- 対象システム: 社内LLM(Llama 3 70B)、RAGシステム、
  データパイプライン
- 対象者: データを扱う全従業員

## 2. 組織体制

| ロール | 担当者 | 責任 |
|--------|--------|------|
| データガバナンス委員長 | CTO | 最終意思決定、四半期レビュー |
| 顧客データオーナー | マーケティング部長 | 顧客データのAI利用承認 |
| 業務データオーナー | 各部門長 | 部門データの分類・管理 |
| データスチュワード | データ管理課(2名) | 品質ルール運用、メタデータ管理 |
| データエンジニア | データ基盤チーム(3名) | パイプライン構築・運用 |
| プライバシー担当 | 法務部 | 法規制対応、DPIA実施 |

## 3. データ分類基準とAI利用ルール

### 分類基準
- Level 1(公開): 外部公開済みの情報
- Level 2(社内): 社内に限定された情報(PII含まない)
- Level 3(機密): アクセス制限のある業務情報(PII含む)
- Level 4(極秘): 経営上の最重要情報

### AI利用ルール
- Level 1-2: 社内LLMでのRAG利用を許可
- Level 3: 匿名化・マスキング後、データオーナーの承認を得て利用
- Level 4: AI利用禁止(技術的にも遮断)

## 4. PII取扱い規定

- 全データは取り込み時にPII自動スキャンを実施
- 検出されたPIIは用途に応じて匿名化またはマスキング
- 匿名化手法: 一般化、仮名化(SHA-256ハッシュ)
- PII検出ツール: Presidio(Microsoft OSS)
- PII含有データの外部LLM APIへの送信は禁止

## 5. データ品質SLO

| データ資産 | 品質スコア目標 | 完全性 | 鮮度 |
|-----------|-------------|--------|------|
| 顧客データ | >= 85 | >= 95% | < 24h |
| 社内ドキュメント | >= 80 | >= 90% | < 7日 |
| チャットログ | >= 75 | >= 85% | < 1h |

品質スコアが目標を3日連続で下回った場合、
データスチュワードが改善チケットを起票する。

## 6. インシデント対応

### PII漏洩時
1. パイプラインの即時停止
2. 影響範囲の特定(リネージュ追跡)
3. 漏洩データの削除
4. データオーナーへの報告(1時間以内)
5. 法務部への報告(当日中)
6. 根本原因分析と再発防止策

### 品質異常時
1. 品質ゲートで自動ブロック
2. データスチュワードへの通知
3. 原因調査と修正
4. 品質スコア回復を確認後にパイプライン再開

## 7. 監査と見直し

- 月次: データ品質レポートのレビュー
- 四半期: ポリシーの見直し、ガバナンス委員会
- 年次: 外部監査、法規制対応の棚卸し
- 随時: 法規制変更時のポリシー更新

Mission 3: データパイプラインのアーキテクチャ設計(30分)

要件

前提条件のデータ資産をAI(RAGシステム)に活用するためのデータパイプラインアーキテクチャを設計してください。以下を含めること。

  1. 全体アーキテクチャ図(テキストで可)
  2. 各ステージの処理内容と使用ツール
  3. 品質ゲートの設計(チェック項目と閾値)
  4. 監視・アラートの設計
  5. データバージョニングの方針
解答例

全体アーキテクチャ

[データソース]
├─ Salesforce CRM (顧客データ)
├─ Confluence / SharePoint / Google Drive (ドキュメント)
└─ Slack API (チャットログ)


[Stage 1: 取り込み (Ingestion)]
├─ ツール: Apache Airflow (オーケストレーション)
├─ 処理: フォーマット正規化、メタデータ付与
├─ スケジュール:
│   ├ 顧客データ: 日次バッチ
│   ├ ドキュメント: 日次差分同期
│   └ チャット: 準リアルタイム (1時間バッチ)
└─ 格納先: S3 (raw/)


[Stage 2: PII検出・処理]
├─ ツール: Microsoft Presidio + カスタムルール
├─ 処理:
│   ├ PII自動検出(NER + 正規表現)
│   ├ 分類レベルの自動判定
│   └ マスキング/匿名化の実行
└─ 格納先: S3 (cleaned/)


[Stage 3: 前処理・クレンジング]
├─ ツール: Python (pandas, spaCy)
├─ 処理:
│   ├ テキスト抽出 (PDF, DOCX → plaintext)
│   ├ 重複検出・除去 (MinHash LSH)
│   ├ 言語検出・正規化
│   └ チャット: 業務チャンネルのフィルタリング
└─ 格納先: S3 (processed/)


[Stage 4: 品質ゲート]
├─ ツール: Great Expectations
├─ チェック項目:
│   ├ PII残存チェック(ゼロであること)
│   ├ 品質スコア >= 閾値
│   ├ レコード数の異常検出(前回比 ±30%以内)
│   └ テキスト長の妥当性チェック
├─ 合格: 次ステージへ
└─ 不合格: パイプライン停止、データスチュワードに通知


[Stage 5: チャンキング + 埋め込み]
├─ ツール: LangChain (chunking) + self-hosted embedding model
├─ チャンキング戦略:
│   ├ ドキュメント: Recursive (512 tokens, overlap 50)
│   ├ チャット: Fixed size (256 tokens, overlap 30)
│   └ 顧客: Structured (フィールド別)
├─ 埋め込み: multilingual-e5-large (self-hosted)
└─ メタデータ: source, classification, quality_score, timestamp


[Stage 6: ベクトルDB格納]
├─ ツール: Amazon OpenSearch (k-NN)
├─ インデックス:
│   ├ helpdesk-docs (社内ドキュメント)
│   ├ helpdesk-chat (チャットログ)
│   └ customer-insights (顧客データ)
└─ メタデータストア: PostgreSQL (リネージュ情報)

品質ゲートの設計

チェック項目閾値失敗時アクション
PII残存数0件パイプライン停止 + セキュリティアラート
品質スコア(ドキュメント)>= 80該当ドキュメントをスキップ
品質スコア(チャット)>= 75該当チャットをスキップ
レコード数の前回比±30%以内Warning通知 + 手動確認
テキスト長10 - 10,000 tokens該当レコードをスキップ
重複率<= 5%Warning通知
エンコーディングエラー0件該当レコードをスキップ + ログ

監視・アラート設計

監視対象ツールアラート条件通知先
パイプライン状態Airflow + CloudWatch失敗/タイムアウトSlack #data-alerts
PII検出カスタムメトリクス検出数 > 0 (Stage 4以降)Slack #security + PagerDuty
品質スコア推移Grafana3日連続でSLO未達データスチュワード
データドリフトEvidently AIKS統計量 > 0.15Slack #ml-ops
コストAWS Cost Explorer月額予算の80%超過エンジニアリングマネージャー

データバージョニング方針

項目方針
ツールDVC + S3
バージョニング単位データ資産ごと(顧客、ドキュメント、チャット)
命名規則v{major}.{minor}.{patch} (SemVer)
保持ポリシー直近5バージョン + 各モデル学習時の版
メタデータ件数、品質スコア、PII処理結果、変更概要
コミットメッセージデータ変更の概要を必ず記載

達成度チェック

ミッションテーマ完了
Mission 1データ分類とリスク評価
Mission 2データガバナンスポリシー策定
Mission 3データパイプラインのアーキテクチャ設計

まとめ

ポイント内容
データ分類全データ資産を4段階で分類し、AI利用可否を明確化する
リスク評価PII含有リスク、品質リスク、法的リスクを網羅的に評価する
ポリシー策定組織体制、分類基準、品質SLO、インシデント対応を含む包括的なポリシー
パイプライン設計品質ゲートとPII検出を組み込んだ堅牢なアーキテクチャ

チェックリスト

  • 3つのデータ資産を適切に分類し、リスクを評価できた
  • AI利用を前提としたガバナンスポリシーを策定できた
  • 品質ゲート付きのデータパイプラインを設計できた
  • 監視・アラートの設計を含めた運用可能な設計ができた
  • データバージョニングの方針を定義できた

次のステップへ

次は理解度チェックのクイズです。Step 2で学んだデータガバナンスの基礎、品質管理、プライバシー、パイプライン設計の知識を確認しましょう。


推定所要時間: 90分