演習：診断支援システムの評価改善計画を策定しよう

「エージェントの品質を継続的に改善する体制を作ろう。」

田中VPoEが指示する。

「Sensitivity/Specificity評価、HITL設計、継続的学習を含む包括的な評価改善計画を策定してくれ。」

ミッション概要

画像診断支援AIエージェントの評価改善計画を策定する。

Mission 1: 評価指標とベースライン（20分）

以下を含む評価計画を策定せよ。

主要評価指標とその目標値
用途別の閾値設定
ベースラインモデルとの比較方法

解答例

=== 評価計画 ===

■ 主要指標と目標
| 指標 | 目標 | 現状 | 用途 |
|------|------|------|------|
| Sensitivity | >= 0.95 | 0.92 | 見逃し防止 |
| Specificity | >= 0.85 | 0.80 | 偽陽性削減 |
| AUC-ROC | >= 0.95 | 0.93 | 総合判別能力 |
| PPV | >= 0.80 | 0.75 | 陽性の精度 |

■ 用途別閾値
スクリーニング: 閾値0.3（Sensitivity重視）
確定診断支援: 閾値0.7（バランス型）

■ ベースライン
1. ルールベース（色・形の閾値判定）
2. ResNet50単体
3. VLM Zero-shot
4. マルチモーダル融合（提案手法）

Mission 2: HITL運用設計（20分）

以下を含むHITL運用設計を策定せよ。

レビュールーティングのルール
レビューインターフェースの要件
フィードバック収集と活用方法

解答例

=== HITL運用設計 ===

■ ルーティング
- 確信度 >= 0.9 & リスクLow: 自動承認（30%想定）
- 確信度 >= 0.7: 通常レビュー（40%想定）
- 確信度 < 0.7 or リスクHigh以上: 必須レビュー（30%想定）

■ レビューUI要件
1. 元画像 + Grad-CAM重畳表示
2. AI分類結果 + 確信度バー
3. 構造化所見テキスト
4. 類似症例3件の表示
5. 同意/修正/却下/エスカレーションのアクションボタン

■ フィードバック活用
- 却下・修正ケースをラベル付きデータとして蓄積
- 月次でモデル再学習を実施
- 合意率を週次でモニタリング（目標: 85%以上）

Mission 3: 継続的改善ロードマップ（20分）

以下を含む改善計画を策定せよ。

短期・中期・長期の改善目標
再学習パイプラインの設計
リスクと対策

解答例

=== 改善ロードマップ ===

■ 短期（1-3ヶ月）
- Sensitivity 0.92 → 0.95
- HITL合意率 80% → 85%
- レビュー時間 10分→5分/件

■ 中期（3-6ヶ月）
- マルチモーダル融合の本番導入
- 自動承認率 30% → 50%
- 新しい疾患カテゴリの追加

■ 長期（6-12ヶ月）
- 完全自動化率 70%（Low リスクのみ）
- 多施設展開
- リアルタイム学習の導入

■ リスクと対策
| リスク | 対策 |
|--------|------|
| モデル劣化 | 週次Sensitivity監視 + 自動アラート |
| データ偏り | クラスバランス監視 + 能動学習 |
| 専門家の過信 | 定期的なAI精度レポート共有 |

達成度チェック

Sensitivity/Specificity の目標値と閾値を設定した
HITLルーティングルールを設計した
フィードバック収集と再学習の仕組みを設計した
短期・中期・長期の改善目標を策定した

推定所要時間: 60分