クイズの説明
Step 2「データガバナンスを確立しよう」の理解度を確認します。データガバナンスの組織体制、データ品質管理、プライバシー対策、データパイプライン設計について問います。
合格ライン: 80%(5問中4問正解)
問題
Q1. データガバナンスの組織体制
データガバナンスにおいて「データオーナー」の最も重要な責務はどれですか?
- A. データパイプラインの構築と運用を行う
- B. データの品質基準を定義し、AI利用の可否を最終判断する
- C. メタデータの維持管理とデータカタログの更新を行う
- D. データの技術的なバックアップとリストアを実施する
答えを見る
正解: B
データオーナーは事業部門の責任者(部長以上)であり、データの品質基準の定義やAI利用の可否の最終判断を行います。パイプラインの構築・運用(A)はデータエンジニアの責務です。メタデータの維持管理(C)はデータスチュワードの責務です。バックアップとリストア(D)はインフラチームの技術的な業務であり、ガバナンスの主要ロールの責務ではありません。データオーナーは「このデータをAIに使ってよいか」を最終的に承認する権限と責任を持つ、ガバナンス上最も重要なロールです。
Q2. データ品質の次元
AIシステムにおいて、学習データの「完全性(Completeness)」が低い場合に最も懸念されるリスクはどれですか?
- A. パイプラインの実行速度が低下する
- B. ストレージコストが増加する
- C. 欠損パターンに偏りがある場合、モデルにバイアスが生じる
- D. データカタログの検索精度が低下する
答えを見る
正解: C
データの完全性が低い(欠損値が多い)場合、最も深刻なリスクは「欠損パターンの偏りによるバイアス」です。例えば、特定の年齢層や地域のデータが欠損しやすい場合、AIモデルはそのグループに対して不正確な予測を行うようになります。これは「Missing Not At Random(MNAR)」と呼ばれる問題です。パイプライン速度(A)やストレージコスト(B)への影響は軽微です。データカタログの検索精度(D)は完全性とは直接関係しません。AI向けのデータ品質管理では、欠損値の「量」だけでなく「パターン」を分析することが重要です。
Q3. AI固有のプライバシーリスク
社内チャットログをRAGシステムに活用する際、最も優先して対処すべきプライバシーリスクはどれですか?
- A. チャットログのデータ量が膨大でストレージコストがかかる
- B. チャットメッセージ内に直接記載された個人情報(電話番号、住所等)がRAGの回答に含まれる
- C. 雑談チャンネルのデータがRAGの回答品質を低下させる
- D. チャットログの更新頻度が高くパイプラインの負荷が大きい
答えを見る
正解: B
チャットログをRAGに活用する際の最も深刻なプライバシーリスクは、メッセージ内に直接記載されたPII(個人特定情報)がRAGの回答に含まれてしまうことです。チャットは自由形式のテキストであるため、「田中太郎さんの電話番号は080-XXXX-XXXXです」のように個人情報が直接記載されるケースが頻発します。これがベクトルDBに格納され、RAGの回答として出力されれば、個人情報保護法違反やプライバシー侵害につながります。ストレージコスト(A)、回答品質(C)、パイプライン負荷(D)はいずれも運用上の課題ですが、プライバシーリスクとしては優先度が低いです。PII自動検出とマスキングを取り込みステージで実施することが必須です。
Q4. RAGデータパイプライン設計
RAGデータパイプラインにおいて「品質ゲート」を配置する最適な位置はどれですか?
- A. データソースからの取り込み直前
- B. PII検出・マスキングの直前
- C. チャンキングと埋め込みの間(ベクトルDBへの格納前)
- D. ベクトルDBへの格納後
答えを見る
正解: C
品質ゲートは「チャンキング後、ベクトルDBへの格納前」に配置するのが最適です。この位置では、PII除去済みのクリーンなデータに対して品質チェックを行い、基準を満たさないチャンクがベクトルDBに格納されるのを防げます。取り込み直前(A)ではまだデータが未処理であり、品質チェックの前提となるクレンジングが済んでいません。PII検出の直前(B)ではPII除去が行われておらず、PII含有チャンクが品質チェックを通過する可能性があります。格納後(D)では問題のあるデータが既にインデックスされており、削除コストが発生します。「書き込む前に検証する」という原則に従い、ベクトルDB格納前に品質ゲートを設けることで、信頼性の高いRAGシステムを構築できます。
Q5. データ分類フレームワークの適用
以下のデータ資産のうち、データ分類フレームワークにおいて「Level 3(機密)」に分類され、かつAI利用に「匿名化後に条件付き許可」が適用されるものはどれですか?
- A. 公開APIの仕様書
- B. 顧客の氏名・購買履歴を含むCRMデータ
- C. M&Aに関する経営会議資料
- D. 社内技術ブログの記事
答えを見る
正解: B
顧客の氏名・購買履歴を含むCRMデータは、PII(個人特定情報)を含むためLevel 3(機密)に分類されます。AI利用にはデータオーナーの承認と匿名化・マスキングが必要です。公開APIの仕様書(A)はLevel 1(公開)であり、制限なくAI利用可能です。M&A経営会議資料(C)はLevel 4(極秘)であり、AI利用は禁止されます。社内技術ブログ(D)はLevel 2(社内)であり、社内LLMでの利用は許可されます。データ分類フレームワークでは、データの機密性レベルに応じてAI利用の可否と条件を明確に定義し、Level 3のデータは匿名化・仮名化を実施した上でデータオーナーの承認を得ることが求められます。
結果
合格(4問以上正解)
Step 2の内容をよく理解しています。データガバナンスの組織体制、品質管理、プライバシー対策、パイプライン設計の基礎を身につけました。次のStepに進みましょう。
「データガバナンスの基盤ができた。これでAIに安全にデータを食わせる準備が整った。次はいよいよAIシステム本体の設計に入る」 — 田中VPoE
不合格(3問以下正解)
Step 2の内容を復習しましょう。特に以下のポイントを重点的に確認してください:
- Q1を間違えた場合 → Step 2-1「データガバナンスの基礎」の組織体制セクションを復習
- Q2を間違えた場合 → Step 2-2「データ品質管理」の6つの次元とAI固有の品質要件を復習
- Q3を間違えた場合 → Step 2-3「プライバシーとコンプライアンス」のAI固有のプライバシーリスクを復習
- Q4を間違えた場合 → Step 2-4「AI向けデータパイプライン」のパイプライン設計セクションを復習
- Q5を間違えた場合 → Step 2-3「プライバシーとコンプライアンス」のデータ分類フレームワークを復習
推定所要時間: 30分