ストーリー
ミッション概要
| ミッション | テーマ | 目安時間 |
|---|---|---|
| Mission 1 | データ分類とリスク評価 | 30分 |
| Mission 2 | データガバナンスポリシー策定 | 30分 |
| Mission 3 | データパイプラインのアーキテクチャ設計 | 30分 |
前提条件
組織のデータ資産
【顧客データ】10万件
- ソース: Salesforce CRM
- 内容: 氏名、メールアドレス、電話番号、住所、購買履歴、
問い合わせ履歴、契約内容
- 更新頻度: リアルタイム
- 現状の管理: マーケティング部が管理、アクセス制限あり
- 課題: 一部データが古い(2年以上未更新が15%)
【社内ドキュメント】5万件
- ソース: Confluence, SharePoint, Google Drive(3システム混在)
- 内容: 技術仕様書、会議議事録、社内規定、
プロジェクト報告書、提案書
- 更新頻度: 不定期(1日50件程度の更新)
- 現状の管理: 各部門が独自管理、一元管理なし
- 課題: 文書内に顧客名・社員名が頻出、
重複ドキュメントが推定20%存在
【チャットログ】100万件
- ソース: Slack
- 内容: 業務チャット、技術相談、顧客対応記録、
雑談チャンネル
- 更新頻度: リアルタイム(1日約3,000件増加)
- 現状の管理: Slack上に蓄積のみ、エクスポートなし
- 課題: 個人情報(電話番号、住所等)がメッセージに
直接記載されているケースあり、
雑談と業務の区別が困難
AI活用の目標
| 活用シーン | 対象データ | 期待効果 |
|---|---|---|
| 社内ヘルプデスクAI | ドキュメント + チャット | 問い合わせ対応の50%自動化 |
| 顧客インサイト分析 | 顧客データ + チャット | 解約予兆の検知精度80%以上 |
| ナレッジ検索RAG | 全データ | 必要な情報への到達時間を1/3に短縮 |
制約条件
- 外部LLM API(OpenAI等)の利用は社内データに対して禁止方針
- AWS上にセルフホストLLM環境を構築済み(Llama 3 70B)
- 個人情報保護法への準拠が必須
- 開発チーム: データエンジニア3名、MLエンジニア2名
Mission 1: データ分類とリスク評価(30分)
要件
3つのデータ資産(顧客データ、社内ドキュメント、チャットログ)それぞれについて、以下を実施してください。
- データ分類レベル(公開/社内/機密/極秘)を判定する
- PII含有リスクを評価する(高/中/低)
- AI利用時の主要リスクを3つ以上特定する
- リスク軽減策を提案する
期待される成果物
データ分類・リスク評価マトリクスを完成させること。
解答例
データ分類・リスク評価マトリクス
| データ資産 | 分類レベル | PII含有リスク | AI利用可否 |
|---|---|---|---|
| 顧客データ | Level 3(機密) | 高 | 匿名化後に条件付き許可 |
| 社内ドキュメント | Level 2-3(社内-機密混在) | 中 | PII除去後に許可(社内LLMのみ) |
| チャットログ | Level 2-3(社内-機密混在) | 高 | PII除去+フィルタリング後に許可 |
顧客データのリスク評価
| リスク | 影響度 | 発生可能性 | 対策 |
|---|---|---|---|
| PII漏洩(氏名・連絡先) | 高 | 高 | 匿名化・仮名化の実施 |
| 古いデータによるAI精度低下 | 中 | 高 | 2年以上未更新データの除外ルール |
| バイアス(地域・年齢の偏り) | 中 | 中 | データ分布の分析と重み付け調整 |
| 個人情報保護法違反 | 高 | 中 | 利用目的の再通知、同意管理 |
社内ドキュメントのリスク評価
| リスク | 影響度 | 発生可能性 | 対策 |
|---|---|---|---|
| 文書内の個人名漏洩 | 中 | 高 | NER(固有表現認識)によるPII検出 |
| 重複ドキュメントによるRAG品質低下 | 低 | 高 | 重複検出・除去パイプライン |
| 古い情報がRAGに混入 | 中 | 高 | 更新日時によるフィルタリング、鮮度スコア |
| 3システム間の不整合 | 低 | 中 | 統合メタデータカタログの構築 |
チャットログのリスク評価
| リスク | 影響度 | 発生可能性 | 対策 |
|---|---|---|---|
| 直接記載されたPII(電話番号等) | 高 | 高 | 正規表現+NERによるPII自動検出・マスキング |
| 雑談データの混入による品質低下 | 低 | 高 | チャンネル分類、業務チャットのみ抽出 |
| プライベートな会話の漏洩 | 中 | 中 | DMチャンネルの除外、センシティブ内容フィルタ |
| データ量が膨大でコスト増 | 低 | 高 | 重要度スコアリングによるサンプリング |
Mission 2: データガバナンスポリシー策定(30分)
要件
AI利用を前提としたデータガバナンスポリシーを策定してください。以下のセクションを含めること。
- ポリシーの目的と適用範囲
- 組織体制(ロールと責任)
- データ分類基準とAI利用ルール
- PII取扱い規定
- データ品質SLO
- インシデント対応手順
- 監査と見直しのサイクル
解答例
# AIデータガバナンスポリシー v1.0
## 1. 目的と適用範囲
### 目的
本ポリシーは、組織のデータ資産をAIシステムで安全かつ効果的に
活用するための方針を定める。
### 適用範囲
- 対象データ: 顧客データ、社内ドキュメント、チャットログ、
および今後追加される全データ資産
- 対象システム: 社内LLM(Llama 3 70B)、RAGシステム、
データパイプライン
- 対象者: データを扱う全従業員
## 2. 組織体制
| ロール | 担当者 | 責任 |
|--------|--------|------|
| データガバナンス委員長 | CTO | 最終意思決定、四半期レビュー |
| 顧客データオーナー | マーケティング部長 | 顧客データのAI利用承認 |
| 業務データオーナー | 各部門長 | 部門データの分類・管理 |
| データスチュワード | データ管理課(2名) | 品質ルール運用、メタデータ管理 |
| データエンジニア | データ基盤チーム(3名) | パイプライン構築・運用 |
| プライバシー担当 | 法務部 | 法規制対応、DPIA実施 |
## 3. データ分類基準とAI利用ルール
### 分類基準
- Level 1(公開): 外部公開済みの情報
- Level 2(社内): 社内に限定された情報(PII含まない)
- Level 3(機密): アクセス制限のある業務情報(PII含む)
- Level 4(極秘): 経営上の最重要情報
### AI利用ルール
- Level 1-2: 社内LLMでのRAG利用を許可
- Level 3: 匿名化・マスキング後、データオーナーの承認を得て利用
- Level 4: AI利用禁止(技術的にも遮断)
## 4. PII取扱い規定
- 全データは取り込み時にPII自動スキャンを実施
- 検出されたPIIは用途に応じて匿名化またはマスキング
- 匿名化手法: 一般化、仮名化(SHA-256ハッシュ)
- PII検出ツール: Presidio(Microsoft OSS)
- PII含有データの外部LLM APIへの送信は禁止
## 5. データ品質SLO
| データ資産 | 品質スコア目標 | 完全性 | 鮮度 |
|-----------|-------------|--------|------|
| 顧客データ | >= 85 | >= 95% | < 24h |
| 社内ドキュメント | >= 80 | >= 90% | < 7日 |
| チャットログ | >= 75 | >= 85% | < 1h |
品質スコアが目標を3日連続で下回った場合、
データスチュワードが改善チケットを起票する。
## 6. インシデント対応
### PII漏洩時
1. パイプラインの即時停止
2. 影響範囲の特定(リネージュ追跡)
3. 漏洩データの削除
4. データオーナーへの報告(1時間以内)
5. 法務部への報告(当日中)
6. 根本原因分析と再発防止策
### 品質異常時
1. 品質ゲートで自動ブロック
2. データスチュワードへの通知
3. 原因調査と修正
4. 品質スコア回復を確認後にパイプライン再開
## 7. 監査と見直し
- 月次: データ品質レポートのレビュー
- 四半期: ポリシーの見直し、ガバナンス委員会
- 年次: 外部監査、法規制対応の棚卸し
- 随時: 法規制変更時のポリシー更新
Mission 3: データパイプラインのアーキテクチャ設計(30分)
要件
前提条件のデータ資産をAI(RAGシステム)に活用するためのデータパイプラインアーキテクチャを設計してください。以下を含めること。
- 全体アーキテクチャ図(テキストで可)
- 各ステージの処理内容と使用ツール
- 品質ゲートの設計(チェック項目と閾値)
- 監視・アラートの設計
- データバージョニングの方針
解答例
全体アーキテクチャ
[データソース]
├─ Salesforce CRM (顧客データ)
├─ Confluence / SharePoint / Google Drive (ドキュメント)
└─ Slack API (チャットログ)
│
▼
[Stage 1: 取り込み (Ingestion)]
├─ ツール: Apache Airflow (オーケストレーション)
├─ 処理: フォーマット正規化、メタデータ付与
├─ スケジュール:
│ ├ 顧客データ: 日次バッチ
│ ├ ドキュメント: 日次差分同期
│ └ チャット: 準リアルタイム (1時間バッチ)
└─ 格納先: S3 (raw/)
│
▼
[Stage 2: PII検出・処理]
├─ ツール: Microsoft Presidio + カスタムルール
├─ 処理:
│ ├ PII自動検出(NER + 正規表現)
│ ├ 分類レベルの自動判定
│ └ マスキング/匿名化の実行
└─ 格納先: S3 (cleaned/)
│
▼
[Stage 3: 前処理・クレンジング]
├─ ツール: Python (pandas, spaCy)
├─ 処理:
│ ├ テキスト抽出 (PDF, DOCX → plaintext)
│ ├ 重複検出・除去 (MinHash LSH)
│ ├ 言語検出・正規化
│ └ チャット: 業務チャンネルのフィルタリング
└─ 格納先: S3 (processed/)
│
▼
[Stage 4: 品質ゲート]
├─ ツール: Great Expectations
├─ チェック項目:
│ ├ PII残存チェック(ゼロであること)
│ ├ 品質スコア >= 閾値
│ ├ レコード数の異常検出(前回比 ±30%以内)
│ └ テキスト長の妥当性チェック
├─ 合格: 次ステージへ
└─ 不合格: パイプライン停止、データスチュワードに通知
│
▼
[Stage 5: チャンキング + 埋め込み]
├─ ツール: LangChain (chunking) + self-hosted embedding model
├─ チャンキング戦略:
│ ├ ドキュメント: Recursive (512 tokens, overlap 50)
│ ├ チャット: Fixed size (256 tokens, overlap 30)
│ └ 顧客: Structured (フィールド別)
├─ 埋め込み: multilingual-e5-large (self-hosted)
└─ メタデータ: source, classification, quality_score, timestamp
│
▼
[Stage 6: ベクトルDB格納]
├─ ツール: Amazon OpenSearch (k-NN)
├─ インデックス:
│ ├ helpdesk-docs (社内ドキュメント)
│ ├ helpdesk-chat (チャットログ)
│ └ customer-insights (顧客データ)
└─ メタデータストア: PostgreSQL (リネージュ情報)
品質ゲートの設計
| チェック項目 | 閾値 | 失敗時アクション |
|---|---|---|
| PII残存数 | 0件 | パイプライン停止 + セキュリティアラート |
| 品質スコア(ドキュメント) | >= 80 | 該当ドキュメントをスキップ |
| 品質スコア(チャット) | >= 75 | 該当チャットをスキップ |
| レコード数の前回比 | ±30%以内 | Warning通知 + 手動確認 |
| テキスト長 | 10 - 10,000 tokens | 該当レコードをスキップ |
| 重複率 | <= 5% | Warning通知 |
| エンコーディングエラー | 0件 | 該当レコードをスキップ + ログ |
監視・アラート設計
| 監視対象 | ツール | アラート条件 | 通知先 |
|---|---|---|---|
| パイプライン状態 | Airflow + CloudWatch | 失敗/タイムアウト | Slack #data-alerts |
| PII検出 | カスタムメトリクス | 検出数 > 0 (Stage 4以降) | Slack #security + PagerDuty |
| 品質スコア推移 | Grafana | 3日連続でSLO未達 | データスチュワード |
| データドリフト | Evidently AI | KS統計量 > 0.15 | Slack #ml-ops |
| コスト | AWS Cost Explorer | 月額予算の80%超過 | エンジニアリングマネージャー |
データバージョニング方針
| 項目 | 方針 |
|---|---|
| ツール | DVC + S3 |
| バージョニング単位 | データ資産ごと(顧客、ドキュメント、チャット) |
| 命名規則 | v{major}.{minor}.{patch} (SemVer) |
| 保持ポリシー | 直近5バージョン + 各モデル学習時の版 |
| メタデータ | 件数、品質スコア、PII処理結果、変更概要 |
| コミットメッセージ | データ変更の概要を必ず記載 |
達成度チェック
| ミッション | テーマ | 完了 |
|---|---|---|
| Mission 1 | データ分類とリスク評価 | |
| Mission 2 | データガバナンスポリシー策定 | |
| Mission 3 | データパイプラインのアーキテクチャ設計 |
まとめ
| ポイント | 内容 |
|---|---|
| データ分類 | 全データ資産を4段階で分類し、AI利用可否を明確化する |
| リスク評価 | PII含有リスク、品質リスク、法的リスクを網羅的に評価する |
| ポリシー策定 | 組織体制、分類基準、品質SLO、インシデント対応を含む包括的なポリシー |
| パイプライン設計 | 品質ゲートとPII検出を組み込んだ堅牢なアーキテクチャ |
チェックリスト
- 3つのデータ資産を適切に分類し、リスクを評価できた
- AI利用を前提としたガバナンスポリシーを策定できた
- 品質ゲート付きのデータパイプラインを設計できた
- 監視・アラートの設計を含めた運用可能な設計ができた
- データバージョニングの方針を定義できた
次のステップへ
次は理解度チェックのクイズです。Step 2で学んだデータガバナンスの基礎、品質管理、プライバシー、パイプライン設計の知識を確認しましょう。
推定所要時間: 90分