チェックポイント - L0 カリキュラム

クイズの説明

Step 2「データガバナンスを確立しよう」の理解度を確認します。データガバナンスの組織体制、データ品質管理、プライバシー対策、データパイプライン設計について問います。

合格ライン: 80%（5問中4問正解）

問題

Q1. データガバナンスの組織体制

データガバナンスにおいて「データオーナー」の最も重要な責務はどれですか？

A. データパイプラインの構築と運用を行う
B. データの品質基準を定義し、AI利用の可否を最終判断する
C. メタデータの維持管理とデータカタログの更新を行う
D. データの技術的なバックアップとリストアを実施する

答えを見る

正解: B

データオーナーは事業部門の責任者（部長以上）であり、データの品質基準の定義やAI利用の可否の最終判断を行います。パイプラインの構築・運用（A）はデータエンジニアの責務です。メタデータの維持管理（C）はデータスチュワードの責務です。バックアップとリストア（D）はインフラチームの技術的な業務であり、ガバナンスの主要ロールの責務ではありません。データオーナーは「このデータをAIに使ってよいか」を最終的に承認する権限と責任を持つ、ガバナンス上最も重要なロールです。

Q2. データ品質の次元

AIシステムにおいて、学習データの「完全性（Completeness）」が低い場合に最も懸念されるリスクはどれですか？

A. パイプラインの実行速度が低下する
B. ストレージコストが増加する
C. 欠損パターンに偏りがある場合、モデルにバイアスが生じる
D. データカタログの検索精度が低下する

答えを見る

正解: C

データの完全性が低い（欠損値が多い）場合、最も深刻なリスクは「欠損パターンの偏りによるバイアス」です。例えば、特定の年齢層や地域のデータが欠損しやすい場合、AIモデルはそのグループに対して不正確な予測を行うようになります。これは「Missing Not At Random（MNAR）」と呼ばれる問題です。パイプライン速度（A）やストレージコスト（B）への影響は軽微です。データカタログの検索精度（D）は完全性とは直接関係しません。AI向けのデータ品質管理では、欠損値の「量」だけでなく「パターン」を分析することが重要です。

Q3. AI固有のプライバシーリスク

社内チャットログをRAGシステムに活用する際、最も優先して対処すべきプライバシーリスクはどれですか？

A. チャットログのデータ量が膨大でストレージコストがかかる
B. チャットメッセージ内に直接記載された個人情報（電話番号、住所等）がRAGの回答に含まれる
C. 雑談チャンネルのデータがRAGの回答品質を低下させる
D. チャットログの更新頻度が高くパイプラインの負荷が大きい

答えを見る

正解: B

チャットログをRAGに活用する際の最も深刻なプライバシーリスクは、メッセージ内に直接記載されたPII（個人特定情報）がRAGの回答に含まれてしまうことです。チャットは自由形式のテキストであるため、「田中太郎さんの電話番号は080-XXXX-XXXXです」のように個人情報が直接記載されるケースが頻発します。これがベクトルDBに格納され、RAGの回答として出力されれば、個人情報保護法違反やプライバシー侵害につながります。ストレージコスト（A）、回答品質（C）、パイプライン負荷（D）はいずれも運用上の課題ですが、プライバシーリスクとしては優先度が低いです。PII自動検出とマスキングを取り込みステージで実施することが必須です。

Q4. RAGデータパイプライン設計

RAGデータパイプラインにおいて「品質ゲート」を配置する最適な位置はどれですか？

A. データソースからの取り込み直前
B. PII検出・マスキングの直前
C. チャンキングと埋め込みの間（ベクトルDBへの格納前）
D. ベクトルDBへの格納後

答えを見る

正解: C

品質ゲートは「チャンキング後、ベクトルDBへの格納前」に配置するのが最適です。この位置では、PII除去済みのクリーンなデータに対して品質チェックを行い、基準を満たさないチャンクがベクトルDBに格納されるのを防げます。取り込み直前（A）ではまだデータが未処理であり、品質チェックの前提となるクレンジングが済んでいません。PII検出の直前（B）ではPII除去が行われておらず、PII含有チャンクが品質チェックを通過する可能性があります。格納後（D）では問題のあるデータが既にインデックスされており、削除コストが発生します。「書き込む前に検証する」という原則に従い、ベクトルDB格納前に品質ゲートを設けることで、信頼性の高いRAGシステムを構築できます。

Q5. データ分類フレームワークの適用

以下のデータ資産のうち、データ分類フレームワークにおいて「Level 3（機密）」に分類され、かつAI利用に「匿名化後に条件付き許可」が適用されるものはどれですか？

A. 公開APIの仕様書
B. 顧客の氏名・購買履歴を含むCRMデータ
C. M&Aに関する経営会議資料
D. 社内技術ブログの記事

答えを見る

正解: B

顧客の氏名・購買履歴を含むCRMデータは、PII（個人特定情報）を含むためLevel 3（機密）に分類されます。AI利用にはデータオーナーの承認と匿名化・マスキングが必要です。公開APIの仕様書（A）はLevel 1（公開）であり、制限なくAI利用可能です。M&A経営会議資料（C）はLevel 4（極秘）であり、AI利用は禁止されます。社内技術ブログ（D）はLevel 2（社内）であり、社内LLMでの利用は許可されます。データ分類フレームワークでは、データの機密性レベルに応じてAI利用の可否と条件を明確に定義し、Level 3のデータは匿名化・仮名化を実施した上でデータオーナーの承認を得ることが求められます。

結果

合格（4問以上正解）

Step 2の内容をよく理解しています。データガバナンスの組織体制、品質管理、プライバシー対策、パイプライン設計の基礎を身につけました。次のStepに進みましょう。

「データガバナンスの基盤ができた。これでAIに安全にデータを食わせる準備が整った。次はいよいよAIシステム本体の設計に入る」 — 田中VPoE

不合格（3問以下正解）

Step 2の内容を復習しましょう。特に以下のポイントを重点的に確認してください：

Q1を間違えた場合 → Step 2-1「データガバナンスの基礎」の組織体制セクションを復習
Q2を間違えた場合 → Step 2-2「データ品質管理」の6つの次元とAI固有の品質要件を復習
Q3を間違えた場合 → Step 2-3「プライバシーとコンプライアンス」のAI固有のプライバシーリスクを復習
Q4を間違えた場合 → Step 2-4「AI向けデータパイプライン」のパイプライン設計セクションを復習
Q5を間違えた場合 → Step 2-3「プライバシーとコンプライアンス」のデータ分類フレームワークを復習

推定所要時間: 30分