哈佛医学院研究：通用AI误诊率高达80% 专家：优先医生或专业AI 在AI大模

哈佛医学院研究：通用AI误诊率高达80% 专家：优先医生或专业AI

在AI大模型迅速发展的背景下，越来越多人出现身体不适时，第一反应不再是去医院挂急诊，而是求助于AI聊天机器人。尽管这类通用AI在日常生活许多方面都能成为得力助手，但在医学领域，它们还远未达到能够提供精准诊断的程度。

近日，美国哈佛医学院附属麻省总医院的一个研究团队评估了20余种主流的通用AI大模型（LLM），包括ChatGPT、DeepSeek、Gemini和Claude，重点考察其临床诊断能力。结果显示，这些模型基于患者初步症状和体征进行“鉴别诊断”（即识别可能疾病）的错误率高达80%。

研究进一步发现，在患者提供更多检测结果后，大模型将“最终诊断”的失败率降至约40%。研究人员指出，这意味着通用AI需要获取充分的患者信息，才能做出更准确的诊断；当患者无法提供完整的健康检测信息时，通用AI给出的结果并不可靠。

该研究的第一作者、MESH研究员、哈佛医学院博士生Arya Rao表示：“这些通用大模型在数据完整时非常擅长给出最终诊断，但在病例开始时信息不足、需要开放式思考的情况下，它们就力不从心了。”

此前，《自然》杂志刊登的一篇文章也指出，网络上两篇假论文中描述的一种并不存在的皮肤疾病，竟被同行评议的文献引用，并开始出现在Gemini等常用大语言模型聊天机器人的输出中。这些聊天机器人“一本正经”地将一些患者诊断为这种不存在的疾病，并建议他们去看相关专科医生。Gemini母公司谷歌的一位发言人表示，这类结果反映了早期通用大模型发展的局限性。

据媒体报道，中国科学院院士、复旦大学附属中山医院心内科主任葛均波教授曾表示，目前正在推进的工作包括明确AI技术辅助诊疗的边界，强化医生对AI结果的判断能力和责任意识，以确保医疗安全。在他看来，在不久的将来，随着AI技术和算法的持续进步，AI的能力终将超越最顶尖的医生，从辅助工具逐步演变为具备独立思考能力的诊疗手段。

在中国，AI的发展已呈现出通用AI和垂直专业AI两类路线，其中通用AI以豆包、Deepseek等为代表，垂直AI则以健康AI蚂蚁阿福等为代表。

针对公众依赖AI进行自我诊断的现象，相关专家建议，若出现明显身体不适，应优先咨询专业医生或使用经过医学验证的垂直类健康AI工具，并尽可能补充完整的症状与检测信息，并始终将专业医生的判断作为最终依据。

DC娱乐网

哈佛医学院研究：通用AI误诊率高达80% 专家：优先医生或专业AI 在AI大模

热门分类