VLMの業務応用
「VLMの技術は理解した。では実際のビジネスでどう使う?」
田中VPoEが応用事例を並べる。
「商品画像の品質チェック、農作物の病気診断、建設現場の安全確認。VLMを業務に適用する際の設計パターンとベストプラクティスを学ぼう。」
業務応用パターン
| 用途 | 入力 | 出力 | VLMの活用 |
|---|---|---|---|
| 商品画像品質チェック | 商品写真 | 合格/不合格 + 理由 | 品質基準との照合 |
| 農作物病気診断 | 作物写真 | 病名 + 対策 | 症状の記述と判定 |
| 建設安全確認 | 現場写真 | リスク一覧 | 危険要素の検出 |
| 医療画像診断支援 | X線/CT | 所見 + 緊急度 | 異常の記述と評価 |
商品画像品質チェック
def check_product_image_quality(image_path, quality_criteria):
"""VLMによる商品画像の品質チェック"""
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(model="gpt-4o", temperature=0)
prompt = f"""
以下の商品画像を品質基準に基づいて評価してください。
## 品質基準
{quality_criteria}
## 評価項目
1. 照明: 十分な明るさか、影はないか
2. 構図: 商品が中央に配置されているか
3. 背景: 白背景で不要な物がないか
4. ピント: 商品にピントが合っているか
5. 色味: 実物に近い色合いか
各項目を1-5点で評価し、合格/不合格を判定してください。
合格基準: 全項目3点以上、かつ平均4点以上。
"""
# GPT-4oにマルチモーダル入力
import base64
with open(image_path, "rb") as f:
image_data = base64.b64encode(f.read()).decode()
messages = [
{"role": "user", "content": [
{"type": "text", "text": prompt},
{"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_data}"}},
]}
]
response = llm.invoke(messages)
return response.content
農作物病気診断
def diagnose_plant_disease(image_path, plant_type):
"""VLMによる作物病気診断"""
prompt = f"""
この{plant_type}の画像を分析し、以下を回答してください。
1. 症状の観察: 葉の色、斑点、変形などの症状を詳しく記述
2. 推定病名: 最も可能性の高い病気(Top 3)
3. 確信度: 各病気の可能性(高/中/低)
4. 緊急度: 即対応/経過観察/問題なし
5. 推奨対策: 具体的な対応方法
※ 確信度が低い場合は必ず専門家への相談を推奨してください。
"""
# VLMで分析
result = analyze_with_vlm(image_path, prompt)
return result
業務適用のベストプラクティス
| 項目 | ベストプラクティス |
|---|---|
| プロンプト設計 | 評価基準を明確に記述、出力フォーマットを指定 |
| 確信度管理 | 低確信度の場合は人間にエスカレーション |
| 安全性 | 医療・安全分野では必ずHuman-in-the-Loopを設計 |
| コスト | 画像サイズの最適化(解像度とコストのバランス) |
| 評価 | 専門家による定期的な精度検証 |
まとめ
| 項目 | ポイント |
|---|---|
| 応用パターン | 品質チェック/診断/安全確認/医療支援 |
| プロンプト | 基準の明示、構造化出力、不確実性の表現 |
| 安全設計 | 重要判断は必ずHuman-in-the-Loop |
| コスト | 画像解像度とAPI費用の最適化 |
チェックリスト
- VLMの業務応用パターンを4つ以上挙げられる
- GPT-4oのマルチモーダル入力を実装できる
- 業務向けプロンプト設計ができる
- Human-in-the-Loopの必要性を説明できる
次のステップへ
VLMの業務応用を理解した。次はマルチモーダルパイプラインの構築を学ぼう。
推定読了時間: 30分