Autenticare
医疗与医院 · · 6 min

Med-PaLM vs GPT-5.3:通用AI在医疗领域的危险

在医学中,'几乎正确'就是医疗错误。通用模型会产生剂量幻觉。专业模型拯救生命。

Fabiano Brito

Fabiano Brito

CEO & Founder

Med-PaLM vs GPT-5.3:通用AI在医疗领域的危险
TL;DR 能写诗的模型和应该建议诊断的模型不是同一个。通用LLM在医疗中是危险的——Med-PaLM 2在USMLE上达到85%+,达到"专家应试者"级别(vs GPT-5.3的88%),支持100万tokens的临床上下文,并以真实医学文献为基础进行训练。在ICU,"几乎正确"和"正确"之间的差异就是患者的生命。
临床警告 在受控测试中,通用模型在18%的回答中编造了医学引用。在ICU,这是不可接受的。

通用vs专业:有什么不同

通用型

GPT-5.3标准版

擅长创意写作、翻译、摘要。在互联网数据上训练——包括论坛、博客和未经验证的医学内容。

  • 18%的情况下编造临床引用
  • 可能建议错误剂量而不表示不确定性
  • 无证据追踪用于医疗审计
专业型

Med-PaLM 2

专门在同行评审医学文献、临床指南和MedQA上训练,强制使用基础数据。

  • USMLE得分85%+——专家应试者级别
  • 可追溯来源的有据可查的回答
  • 100万tokens上下文——完整患者病史
标准GPT-5.3(通用型)Med-PaLM 2(专业型)
USMLE(医学考试)88%(通过)85%+(专家应试者级别)
幻觉中等(创意型)低(基础型)
上下文20万tokens100万tokens(完整病史)
证据追踪部分设计强制要求

临床细微差别

我们使用Med-PaLM是因为它理解细微差别。它知道糖尿病老年患者的”胸痛”与焦虑的年轻运动员的”胸痛”是完全不同的风险场景。

在医疗中,特异性拯救生命。幻觉会杀人。这就是为什么我们的架构选择是不可谈判的。

基础临床AI

您的医院需要专业模型吗?

我们进行风险诊断、Med-PaLM/Vertex AI架构设计和临床团队培训——提供端到端可审计的证据追踪。


延伸阅读