ストーリー
佐
佐藤CTO
データは企業の最も重要な資産だ。その品質と安全性を守るガバナンス体制を設計してほしい
ミッション概要
| ミッション | テーマ | 目安時間 |
|---|
| Mission 1 | データガバナンスフレームワーク設計 | 15分 |
| Mission 2 | データカタログ仕様策定 | 15分 |
| Mission 3 | プライバシーコンプライアンス計画 | 15分 |
| Mission 4 | データリネージュ追跡システム設計 | 15分 |
前提シナリオ
企業: ヘルスケアSaaS「MediCloud」
データ: 患者記録100万件、医療データ、処方情報
規制: 個人情報保護法、医療情報ガイドライン
チーム: データエンジニア5名、分析チーム8名、開発チーム20名
Mission 1: ガバナンスフレームワーク設計(15分)
解答例
| 領域 | ポリシー | 責任者 |
|---|
| データ品質 | 品質スコア95%以上を維持 | データエンジニアリングリード |
| データセキュリティ | 暗号化、アクセス制御、監査ログ | セキュリティリード |
| データプライバシー | 個人情報の匿名化、同意管理 | DPO(データ保護責任者) |
| データライフサイクル | 保持期間、アーカイブ、削除ポリシー | データスチュワード |
| データアクセス | ロールベースアクセス、承認フロー | 各チームリード |
Mission 2: データカタログ仕様(15分)
解答例
| メタデータ項目 | 説明 | 例 |
|---|
| データセット名 | 一意の識別名 | patient_records |
| オーナー | 責任チーム | 医療データチーム |
| 機密レベル | Public/Internal/Confidential/Restricted | Restricted |
| 更新頻度 | 更新サイクル | リアルタイム |
| データ品質スコア | 完全性・正確性・適時性の総合スコア | 97% |
| リネージュ | 上流・下流の依存関係 | EMR → patient_records → analytics_dashboard |
| PII含有 | 個人情報の有無と種類 | 氏名、生年月日、診療情報 |
Mission 3: プライバシーコンプライアンス計画(15分)
解答例
| 要件 | 対応策 | 実装 |
|---|
| データ最小化 | 必要最小限のデータのみ収集 | スキーマレビュー |
| 暗号化 | 静止データ・通信データの暗号化 | AES-256 + TLS 1.3 |
| 匿名化 | 分析用データの匿名化 | k-匿名性(k≥5) |
| アクセスログ | 全データアクセスの監査ログ | CloudTrail + アプリログ |
| データ削除 | 患者の削除要求対応(30日以内) | 削除パイプライン自動化 |
| 同意管理 | データ利用目的ごとの同意取得 | Consent Management Platform |
Mission 4: リネージュ追跡システム(15分)
解答例
EMRシステム → Kafka → Data Lake(S3) → Spark ETL → DWH → BIダッシュボード
│ │
└── リネージュメタデータ ──────────────┘
(Apache Atlas / OpenLineage)
追跡項目:
- ソース(どこから来たか)
- 変換(どう加工されたか)
- 宛先(どこに行くか)
- タイムスタンプ(いつ処理されたか)
まとめ
| ポイント | 内容 |
|---|
| ガバナンス | 品質・セキュリティ・プライバシー・ライフサイクルを統合管理 |
| カタログ | メタデータを体系的に管理し、データの発見性を向上 |
| プライバシー | 規制要件を技術的対策にマッピング |
| リネージュ | データの流れを端到端で追跡可能にする |
チェックリスト
次のステップへ
次はチェックポイントクイズで理解度を確認します。
推定読了時間: 60分