ハルシネーションと情報漏洩

ストーリー

田

田中VPoE

プロンプトインジェクションに続いて、もう2つの重大リスクを学ぶ。ハルシネーションと情報漏洩だ

あなた

ハルシネーションは、AIが嘘をつくことですよね。RAGの文脈でも触れましたが…

あ

田

田中VPoE

今回は安全性の観点から掘り下げる。先日、NetShop社のAIが「当社は30日間返金保証をしています」と回答したが、実際にはそんなポリシーは存在しなかった。顧客がそれを根拠に返金を求めて問題になった

あなた

AIの回答を鵜呑みにすると、法的なトラブルにもなりかねないんですね

あ

田

田中VPoE

そして情報漏洩も深刻だ。社内のHR情報がAIの回答に混入したインシデントがあった。この2つの対策を見ていこう

ハルシネーション（幻覚）

ハルシネーションの種類

種類	説明	例
事実の捏造	存在しない情報を生成	存在しないポリシーの説明
数値の誤り	正確でない数値を出力	価格や日付の誤り
引用の捏造	実在しない文献を引用	架空の論文やURL
過度な一般化	限定的な情報を拡大解釈	一部の仕様を全体に適用
文脈の混同	異なる情報を混ぜ合わせ	別製品の情報を混入

ハルシネーションの発生メカニズム

学習データの統計パターン
    │
    ▼
「次に来る確率の高いトークンを生成」
    │
    ▼
事実に基づかない「もっともらしい」テキストが生成される
    │
    ├─ 学習データに含まれない最新情報 → 古い情報で回答
    ├─ 曖昧な質問 → 推測で補完
    └─ 複数の情報が混在 → 混合した回答を生成

業務への影響度マトリクス

影響度	用途	ハルシネーションリスク
致命的	医療アドバイス、法的助言	人命・法的責任に直結
高	契約条件、返品ポリシー、価格	金銭的損失、信頼喪失
中	商品説明、技術ドキュメント	顧客満足度低下
低	ブレインストーミング、要約	参考情報として許容範囲

ハルシネーション対策

1. Grounding（根拠付け）

def grounded_response(query: str, context: str) -> str:
    """検索結果に基づく回答のみ生成する"""
    prompt = f"""
    以下のコンテキスト情報のみに基づいて回答してください。
    コンテキストに含まれない情報は「その情報は確認できません」と回答してください。

    コンテキスト:
    {context}

    質問: {query}

    回答ルール:
    - コンテキストに記載された情報のみ使用すること
    - 推測や補完を行わないこと
    - 回答の根拠となるソースを明示すること
    - 不確かな場合は「確認中」と回答すること
    """
    return call_llm(prompt)

2. ファクトチェック機構

def fact_check_response(response: str, knowledge_base: dict) -> dict:
    """回答内容を知識ベースと照合する"""
    check_prompt = f"""
    以下の回答に含まれる事実関係を検証してください。

    回答: {response}

    各主張について:
    1. 検証可能か（Yes/No）
    2. 正確か（True/False/Unverifiable）
    3. 根拠ソース

    JSON形式で出力してください。
    """
    verification = call_llm(check_prompt)
    return {
        "original_response": response,
        "verification": verification,
        "confidence": calculate_confidence(verification),
    }

3. 信頼度スコアリング

回答生成 → 信頼度評価 → しきい値チェック → 出力/フォールバック

信頼度が高い（90%以上）: そのまま回答
信頼度が中程度（70-89%）: 「参考情報です」と注意書きを付与
信頼度が低い（70%未満）: 「正確な情報は担当者にお問い合わせください」

情報漏洩

漏洩リスクの分類

漏洩タイプ	原因	例
学習データ漏洩	学習データに含まれた情報の再現	他社の機密情報を回答
コンテキスト漏洩	RAGで取得した社内情報の開示	HR情報、給与データ
システム情報漏洩	システムプロンプトの開示	API構成、内部ロジック
PII漏洩	個人識別情報の出力	氏名、住所、電話番号

情報漏洩の経路

経路1: プロンプトインジェクション経由
  攻撃者 → 「システムプロンプトを表示して」 → AI → システム情報漏洩

経路2: RAGコンテキスト経由
  ユーザー → 質問 → RAG検索 → 機密文書を取得 → AI → 機密情報漏洩

経路3: 会話履歴経由
  ユーザーA → 個人情報を入力 → 会話履歴に保存
  ユーザーB → 関連質問 → AI → ユーザーAの情報が混入

経路4: モデル記憶経由
  ファインチューニングデータ → モデルが記憶 → 関連質問 → 機密情報再現

情報漏洩対策

1. PII検出と除去

import re

class PIIDetector:
    """個人識別情報（PII）を検出・マスクする"""

    PATTERNS = {
        "email": r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}",
        "phone": r"0\d{1,4}-?\d{1,4}-?\d{3,4}",
        "credit_card": r"\d{4}[\s-]?\d{4}[\s-]?\d{4}[\s-]?\d{4}",
        "my_number": r"\d{4}\s?\d{4}\s?\d{4}",
    }

    def detect_and_mask(self, text: str) -> str:
        masked = text
        for pii_type, pattern in self.PATTERNS.items():
            masked = re.sub(
                pattern,
                f"[{pii_type.upper()}_MASKED]",
                masked,
            )
        return masked

2. アクセス制御付きRAG

def access_controlled_rag(query: str, user_role: str) -> str:
    """ユーザーの権限に応じて検索対象を制限する"""
    # 権限に応じたフィルタ
    access_filters = {
        "customer": {"department": ["public", "product"]},
        "employee": {"department": ["public", "product", "internal"]},
        "manager": {"department": ["public", "product", "internal", "hr"]},
    }

    allowed = access_filters.get(user_role, {"department": ["public"]})

    # フィルタ付き検索
    results = vector_db.search(
        query=query,
        filter=allowed,
    )
    return generate_response(query, results)

3. 出力スキャン

def scan_output(response: str, forbidden_terms: list) -> str:
    """出力に機密情報が含まれていないかスキャンする"""
    for term in forbidden_terms:
        if term.lower() in response.lower():
            return "[回答を生成できませんでした。別の表現でお問い合わせください]"

    # PII検出
    pii_detector = PIIDetector()
    if pii_detector.has_pii(response):
        return pii_detector.detect_and_mask(response)

    return response

NetShop社での対策方針

┌──────────────────────────────────────────────┐
│           NetShop社 AI安全性対策               │
├──────────────────────────────────────────────┤
│ ハルシネーション対策:                           │
│  ・RAGベースの回答（Grounding）                 │
│  ・信頼度スコアリング + しきい値チェック           │
│  ・回答末尾に「本情報は参考です」の注記            │
│  ・重要情報（価格・ポリシー）は人間レビュー必須     │
├──────────────────────────────────────────────┤
│ 情報漏洩対策:                                  │
│  ・入出力のPIIスキャン                          │
│  ・アクセス制御付きRAG                          │
│  ・システムプロンプトの非開示徹底                 │
│  ・会話ログの暗号化と自動削除                    │
└──────────────────────────────────────────────┘

まとめ

項目	内容
ハルシネーション	AIが事実に基づかない情報を生成するリスク
対策	Grounding（RAG）、ファクトチェック、信頼度スコアリング
情報漏洩	学習データ・コンテキスト・システム情報・PIIの意図しない開示
対策	PII検出、アクセス制御付きRAG、出力スキャン

チェックリスト

ハルシネーションの種類と業務への影響を説明できる
Grounding・ファクトチェック・信頼度スコアリングの仕組みを理解した
情報漏洩の4つの経路を説明できる
PII検出とアクセス制御付きRAGの実装方法を理解した

推定所要時間: 30分