医疗与医院 · · 6 min
Med-PaLM vs GPT-5.3:通用AI在医疗领域的危险
在医学中,'几乎正确'就是医疗错误。通用模型会产生剂量幻觉。专业模型拯救生命。
Fabiano Brito
CEO & Founder
TL;DR
能写诗的模型和应该建议诊断的模型不是同一个。通用LLM在医疗中是危险的——Med-PaLM 2在USMLE上达到85%+,达到"专家应试者"级别(vs GPT-5.3的88%),支持100万tokens的临床上下文,并以真实医学文献为基础进行训练。在ICU,"几乎正确"和"正确"之间的差异就是患者的生命。
临床警告
在受控测试中,通用模型在18%的回答中编造了医学引用。在ICU,这是不可接受的。
通用vs专业:有什么不同
通用型
GPT-5.3标准版
擅长创意写作、翻译、摘要。在互联网数据上训练——包括论坛、博客和未经验证的医学内容。
- 18%的情况下编造临床引用
- 可能建议错误剂量而不表示不确定性
- 无证据追踪用于医疗审计
专业型
Med-PaLM 2
专门在同行评审医学文献、临床指南和MedQA上训练,强制使用基础数据。
- USMLE得分85%+——专家应试者级别
- 可追溯来源的有据可查的回答
- 100万tokens上下文——完整患者病史
| 标准 | GPT-5.3(通用型) | Med-PaLM 2(专业型) |
|---|---|---|
| USMLE(医学考试) | 88%(通过) | 85%+(专家应试者级别) |
| 幻觉 | 中等(创意型) | 低(基础型) |
| 上下文 | 20万tokens | 100万tokens(完整病史) |
| 证据追踪 | 部分 | 设计强制要求 |
临床细微差别
我们使用Med-PaLM是因为它理解细微差别。它知道糖尿病老年患者的”胸痛”与焦虑的年轻运动员的”胸痛”是完全不同的风险场景。
在医疗中,特异性拯救生命。幻觉会杀人。这就是为什么我们的架构选择是不可谈判的。
