哈佛研究「AI急诊室诊断比人类医生更准确」被过度炒作,医生:缺乏真实对照

哈佛研究指 AI 急诊诊断准确率达 67.1%,胜过内科医生。但急诊医师反驳此为媒体过度炒作,因为研究缺乏与真实急诊医师对照,且 AI 仅能处理文字,目前仍无法取代人类独立行医。

哈佛研究:AI 在急诊室诊断表现超越人类医生

4 月 30 日,发表于《科学》(Science)杂志的一项研究指出,AI 做出的急诊室诊断结果,比两位人类医生还准确,很快就引起业界与媒体关注,但要据此就判定 AI 真的可以当医生还为时尚早。

由哈佛医学院与贝斯以色列女执事医疗中心的医生及计算机科学家组成的研究团队发现,在一项聚焦于贝斯以色列急诊室的 76 名真实病患的实验中,研究人员将 OpenAI 的 o1 与 GPT-4o 模型生成的诊断结果,与两名“内科主治医生”的诊断进行比较。

研究结果显示,在包含急诊初步检伤分类、急诊医生初步评估,以及获准转入普通病房或加护病房的三个主要诊断阶段中,GPT-o1 模型的准确度都优于 GPT-4o 与人类医生。

在信息最少且最需要做出正确决策的急诊初步检伤分类阶段,AI 模型的优势最为明显。GPT-o1 模型在 67.1% 的病例中给出完全准确或非常接近的诊断,而两名人类医生的准确率分别为 55.3% 与 50.0%。

图源:哈佛研究哈佛研究比较了两位内科主治医生跟 GPT-o1 和 GPT-4o 在 76 个临床病例中的诊断表现

未先预处理,哈佛采用真实病历测试

与过往许多研究不同,这次哈佛研究团队在测试模型之前,并未对真实世界的医疗数据进行任何预先处理,急诊室的病例完全按照其在电子病历中的原始样貌呈现给 AI 模型。

在研究方法上,哈佛医学院 AI 医学博士学位学程博士生 Thomas Buckley 解释,为了了解模型在真实环境下的表现,团队必须在患者就医初期、临床数据仍相当稀少时进行测试。

这篇研究的共同作者 Adam Rodman 也提到,模型在真实急诊病例早期决策阶段的诊断准确度追平甚至超越了主治医生,这个结果令研究团队感到惊讶。

图源:哈佛研究哈佛研究:GPT o1-preview、GPT-4 与医生在临床诊断推理方面的表现比较

AI 只能处理纯文字,真实医疗充满非文字

研究报告还指出,现有的生成式 AI 聊天模型,在处理非文字输入的推理能力上仍有相当大的限制。

这是因为,目前的研究仅针对 AI 模型在接收纯文字信息时的表现进行评估,而真实的临床医疗环境却充满了各种非文字的输入信息,例如听觉层面如病患的痛苦程度,以及视觉层面如医学影像的判读。

AI 尚无法独立行医

虽然 AI 展现出优异的诊断能力,但研究也强调,这不代表 AI 模型就可以独立从事医疗工作。

哈佛医学院临床研究员 Peter Brodeur 解释,AI 模型可能在首要诊断上判断正确,但也可能建议执行不必要的检查,这将让病患面临额外的健康风险。因此,在评估医疗表现与安全性时,仍需要人类做最终把关。

哈佛研究缺乏急诊室医生真实对照

急诊室医生 Kristen Panthagani 也发文表示,哈佛的研究结果虽然有趣,但引发了一些过度炒作的新闻标题。

她指出,哈佛研究是将 AI 与内科主治医生进行比较,缺乏与真正从事该专科的急诊室医生进行对照的数据:

“如果我们要将 AI 工具与医师的临床能力进行比较,我们应该从与实际从事该专科的医师进行比较开始。如果大型语言模型(LLM)在神经外科专科医师考试中击败了皮肤科医师,我并不感到意外,但知道这一点并没有太大的实质帮助。”

她表示,急诊室医生首次看诊的首要目标在于确认病患是否患有致命疾病,并未将猜测最终诊断视为最优先事项。

哈佛研究也在文中警告,目前针对 AI 诊断尚未建立正式的问责框架,病患依然需要人类医生来引导他们度过生死攸关的决策,并协助应对艰难的治疗选择。

研究团队呼吁,医疗界迫切需要在真实的病患护理环境中,通过严格的前瞻性临床试验来评估这些 AI 技术,从而了解应当如何将这类工具安全地部署于临床照护中,以辅助人类医生。

延伸阅读:
生成式 AI 为何在医疗、法律进步缓慢?Replit 创办人:可验证性是关键

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论