LESSON

演習:診断支援システムの評価改善計画を策定しよう

「エージェントの品質を継続的に改善する体制を作ろう。」

田中VPoEが指示する。

「Sensitivity/Specificity評価、HITL設計、継続的学習を含む包括的な評価改善計画を策定してくれ。」

ミッション概要

画像診断支援AIエージェントの評価改善計画を策定する。


Mission 1: 評価指標とベースライン(20分)

以下を含む評価計画を策定せよ。

  1. 主要評価指標とその目標値
  2. 用途別の閾値設定
  3. ベースラインモデルとの比較方法
解答例
=== 評価計画 ===

■ 主要指標と目標
| 指標 | 目標 | 現状 | 用途 |
|------|------|------|------|
| Sensitivity | >= 0.95 | 0.92 | 見逃し防止 |
| Specificity | >= 0.85 | 0.80 | 偽陽性削減 |
| AUC-ROC | >= 0.95 | 0.93 | 総合判別能力 |
| PPV | >= 0.80 | 0.75 | 陽性の精度 |

■ 用途別閾値
スクリーニング: 閾値0.3(Sensitivity重視)
確定診断支援: 閾値0.7(バランス型)

■ ベースライン
1. ルールベース(色・形の閾値判定)
2. ResNet50単体
3. VLM Zero-shot
4. マルチモーダル融合(提案手法)

Mission 2: HITL運用設計(20分)

以下を含むHITL運用設計を策定せよ。

  1. レビュールーティングのルール
  2. レビューインターフェースの要件
  3. フィードバック収集と活用方法
解答例
=== HITL運用設計 ===

■ ルーティング
- 確信度 >= 0.9 & リスクLow: 自動承認(30%想定)
- 確信度 >= 0.7: 通常レビュー(40%想定)
- 確信度 < 0.7 or リスクHigh以上: 必須レビュー(30%想定)

■ レビューUI要件
1. 元画像 + Grad-CAM重畳表示
2. AI分類結果 + 確信度バー
3. 構造化所見テキスト
4. 類似症例3件の表示
5. 同意/修正/却下/エスカレーションのアクションボタン

■ フィードバック活用
- 却下・修正ケースをラベル付きデータとして蓄積
- 月次でモデル再学習を実施
- 合意率を週次でモニタリング(目標: 85%以上)

Mission 3: 継続的改善ロードマップ(20分)

以下を含む改善計画を策定せよ。

  1. 短期・中期・長期の改善目標
  2. 再学習パイプラインの設計
  3. リスクと対策
解答例
=== 改善ロードマップ ===

■ 短期(1-3ヶ月)
- Sensitivity 0.92 → 0.95
- HITL合意率 80% → 85%
- レビュー時間 10分→5分/件

■ 中期(3-6ヶ月)
- マルチモーダル融合の本番導入
- 自動承認率 30% → 50%
- 新しい疾患カテゴリの追加

■ 長期(6-12ヶ月)
- 完全自動化率 70%(Low リスクのみ)
- 多施設展開
- リアルタイム学習の導入

■ リスクと対策
| リスク | 対策 |
|--------|------|
| モデル劣化 | 週次Sensitivity監視 + 自動アラート |
| データ偏り | クラスバランス監視 + 能動学習 |
| 専門家の過信 | 定期的なAI精度レポート共有 |

達成度チェック

  • Sensitivity/Specificity の目標値と閾値を設定した
  • HITLルーティングルールを設計した
  • フィードバック収集と再学習の仕組みを設計した
  • 短期・中期・長期の改善目標を策定した

推定所要時間: 60分