演習:診断支援システムの評価改善計画を策定しよう
「エージェントの品質を継続的に改善する体制を作ろう。」
田中VPoEが指示する。
「Sensitivity/Specificity評価、HITL設計、継続的学習を含む包括的な評価改善計画を策定してくれ。」
ミッション概要
画像診断支援AIエージェントの評価改善計画を策定する。
Mission 1: 評価指標とベースライン(20分)
以下を含む評価計画を策定せよ。
- 主要評価指標とその目標値
- 用途別の閾値設定
- ベースラインモデルとの比較方法
解答例
=== 評価計画 ===
■ 主要指標と目標
| 指標 | 目標 | 現状 | 用途 |
|------|------|------|------|
| Sensitivity | >= 0.95 | 0.92 | 見逃し防止 |
| Specificity | >= 0.85 | 0.80 | 偽陽性削減 |
| AUC-ROC | >= 0.95 | 0.93 | 総合判別能力 |
| PPV | >= 0.80 | 0.75 | 陽性の精度 |
■ 用途別閾値
スクリーニング: 閾値0.3(Sensitivity重視)
確定診断支援: 閾値0.7(バランス型)
■ ベースライン
1. ルールベース(色・形の閾値判定)
2. ResNet50単体
3. VLM Zero-shot
4. マルチモーダル融合(提案手法)
Mission 2: HITL運用設計(20分)
以下を含むHITL運用設計を策定せよ。
- レビュールーティングのルール
- レビューインターフェースの要件
- フィードバック収集と活用方法
解答例
=== HITL運用設計 ===
■ ルーティング
- 確信度 >= 0.9 & リスクLow: 自動承認(30%想定)
- 確信度 >= 0.7: 通常レビュー(40%想定)
- 確信度 < 0.7 or リスクHigh以上: 必須レビュー(30%想定)
■ レビューUI要件
1. 元画像 + Grad-CAM重畳表示
2. AI分類結果 + 確信度バー
3. 構造化所見テキスト
4. 類似症例3件の表示
5. 同意/修正/却下/エスカレーションのアクションボタン
■ フィードバック活用
- 却下・修正ケースをラベル付きデータとして蓄積
- 月次でモデル再学習を実施
- 合意率を週次でモニタリング(目標: 85%以上)
Mission 3: 継続的改善ロードマップ(20分)
以下を含む改善計画を策定せよ。
- 短期・中期・長期の改善目標
- 再学習パイプラインの設計
- リスクと対策
解答例
=== 改善ロードマップ ===
■ 短期(1-3ヶ月)
- Sensitivity 0.92 → 0.95
- HITL合意率 80% → 85%
- レビュー時間 10分→5分/件
■ 中期(3-6ヶ月)
- マルチモーダル融合の本番導入
- 自動承認率 30% → 50%
- 新しい疾患カテゴリの追加
■ 長期(6-12ヶ月)
- 完全自動化率 70%(Low リスクのみ)
- 多施設展開
- リアルタイム学習の導入
■ リスクと対策
| リスク | 対策 |
|--------|------|
| モデル劣化 | 週次Sensitivity監視 + 自動アラート |
| データ偏り | クラスバランス監視 + 能動学習 |
| 専門家の過信 | 定期的なAI精度レポート共有 |
達成度チェック
- Sensitivity/Specificity の目標値と閾値を設定した
- HITLルーティングルールを設計した
- フィードバック収集と再学習の仕組みを設計した
- 短期・中期・長期の改善目標を策定した
推定所要時間: 60分