VLMの業務応用

「VLMの技術は理解した。では実際のビジネスでどう使う？」

田中VPoEが応用事例を並べる。

「商品画像の品質チェック、農作物の病気診断、建設現場の安全確認。VLMを業務に適用する際の設計パターンとベストプラクティスを学ぼう。」

業務応用パターン

用途	入力	出力	VLMの活用
商品画像品質チェック	商品写真	合格/不合格 + 理由	品質基準との照合
農作物病気診断	作物写真	病名 + 対策	症状の記述と判定
建設安全確認	現場写真	リスク一覧	危険要素の検出
医療画像診断支援	X線/CT	所見 + 緊急度	異常の記述と評価

商品画像品質チェック

def check_product_image_quality(image_path, quality_criteria):
    """VLMによる商品画像の品質チェック"""
    from langchain_openai import ChatOpenAI

    llm = ChatOpenAI(model="gpt-4o", temperature=0)

    prompt = f"""
    以下の商品画像を品質基準に基づいて評価してください。

    ## 品質基準
    {quality_criteria}

    ## 評価項目
    1. 照明: 十分な明るさか、影はないか
    2. 構図: 商品が中央に配置されているか
    3. 背景: 白背景で不要な物がないか
    4. ピント: 商品にピントが合っているか
    5. 色味: 実物に近い色合いか

    各項目を1-5点で評価し、合格/不合格を判定してください。
    合格基準: 全項目3点以上、かつ平均4点以上。
    """

    # GPT-4oにマルチモーダル入力
    import base64
    with open(image_path, "rb") as f:
        image_data = base64.b64encode(f.read()).decode()

    messages = [
        {"role": "user", "content": [
            {"type": "text", "text": prompt},
            {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_data}"}},
        ]}
    ]

    response = llm.invoke(messages)
    return response.content

農作物病気診断

def diagnose_plant_disease(image_path, plant_type):
    """VLMによる作物病気診断"""
    prompt = f"""
    この{plant_type}の画像を分析し、以下を回答してください。

    1. 症状の観察: 葉の色、斑点、変形などの症状を詳しく記述
    2. 推定病名: 最も可能性の高い病気（Top 3）
    3. 確信度: 各病気の可能性（高/中/低）
    4. 緊急度: 即対応/経過観察/問題なし
    5. 推奨対策: 具体的な対応方法

    ※ 確信度が低い場合は必ず専門家への相談を推奨してください。
    """

    # VLMで分析
    result = analyze_with_vlm(image_path, prompt)
    return result

業務適用のベストプラクティス

項目	ベストプラクティス
プロンプト設計	評価基準を明確に記述、出力フォーマットを指定
確信度管理	低確信度の場合は人間にエスカレーション
安全性	医療・安全分野では必ずHuman-in-the-Loopを設計
コスト	画像サイズの最適化（解像度とコストのバランス）
評価	専門家による定期的な精度検証

まとめ

項目	ポイント
応用パターン	品質チェック/診断/安全確認/医療支援
プロンプト	基準の明示、構造化出力、不確実性の表現
安全設計	重要判断は必ずHuman-in-the-Loop
コスト	画像解像度とAPI費用の最適化

チェックリスト

VLMの業務応用パターンを4つ以上挙げられる
GPT-4oのマルチモーダル入力を実装できる
業務向けプロンプト設計ができる
Human-in-the-Loopの必要性を説明できる

次のステップへ

VLMの業務応用を理解した。次はマルチモーダルパイプラインの構築を学ぼう。

推定読了時間: 30分