哈佛医学院研究:通用AI误诊率高达80% 专家:优先医生或专业AI
在AI大模型迅速发展的背景下,越来越多人出现身体不适时,第一反应不再是去医院挂急诊,而是求助于AI聊天机器人。尽管这类通用AI在日常生活许多方面都能成为得力助手,但在医学领域,它们还远未达到能够提供精准诊断的程度。
近日,美国哈佛医学院附属麻省总医院的一个研究团队评估了20余种主流的通用AI大模型(LLM),包括ChatGPT、DeepSeek、Gemini和Claude,重点考察其临床诊断能力。结果显示,这些模型基于患者初步症状和体征进行“鉴别诊断”(即识别可能疾病)的错误率高达80%。
研究进一步发现,在患者提供更多检测结果后,大模型将“最终诊断”的失败率降至约40%。研究人员指出,这意味着通用AI需要获取充分的患者信息,才能做出更准确的诊断;当患者无法提供完整的健康检测信息时,通用AI给出的结果并不可靠。
该研究的第一作者、MESH研究员、哈佛医学院博士生Arya Rao表示:“这些通用大模型在数据完整时非常擅长给出最终诊断,但在病例开始时信息不足、需要开放式思考的情况下,它们就力不从心了。”
此前,《自然》杂志刊登的一篇文章也指出,网络上两篇假论文中描述的一种并不存在的皮肤疾病,竟被同行评议的文献引用,并开始出现在Gemini等常用大语言模型聊天机器人的输出中。这些聊天机器人“一本正经”地将一些患者诊断为这种不存在的疾病,并建议他们去看相关专科医生。Gemini母公司谷歌的一位发言人表示,这类结果反映了早期通用大模型发展的局限性。
据媒体报道,中国科学院院士、复旦大学附属中山医院心内科主任葛均波教授曾表示,目前正在推进的工作包括明确AI技术辅助诊疗的边界,强化医生对AI结果的判断能力和责任意识,以确保医疗安全。在他看来,在不久的将来,随着AI技术和算法的持续进步,AI的能力终将超越最顶尖的医生,从辅助工具逐步演变为具备独立思考能力的诊疗手段。
在中国,AI的发展已呈现出通用AI和垂直专业AI两类路线,其中通用AI以豆包、Deepseek等为代表,垂直AI则以健康AI蚂蚁阿福等为代表。
针对公众依赖AI进行自我诊断的现象,相关专家建议,若出现明显身体不适,应优先咨询专业医生或使用经过医学验证的垂直类健康AI工具,并尽可能补充完整的症状与检测信息,并始终将专业医生的判断作为最终依据。
