DC娱乐网

AI健康应用爆发,大模型“看病”是否靠谱?我们进行了实测

岁末年初,AI健康赛道进入密集爆发期。 以去年12月中旬蚂蚁集团升级发布AI健康应用“蚂蚁阿福”,并一度冲入苹果应用商店

岁末年初,AI健康赛道进入密集爆发期。

以去年12月中旬蚂蚁集团升级发布AI健康应用“蚂蚁阿福”,并一度冲入苹果应用商店排行榜前二为标志,此后1个月时间里,百度升级发布文心健康管家,OpenAI推出ChatGPT Health功能,京东健康发布循证医学AI产品“知医”,百川智能也在沉寂许久后高调亮相,发布新一代开源医疗增强大语言模型Baichuan-M3……大厂和独角兽企业们纷纷向这一垂类领域吹响“冲锋号”,掀起了一股AI医疗热潮。

风口之下,使用大模型“看病”是否靠谱?新京报贝壳财经记者测试了7款AI健康应用解读体检报告的能力,发现这几款应用的解读均较为谨慎,主要不同点出现在是否需要就医,以及后续追问上。不过,AI也并非“万无一失”,有个别应用把评估甲状腺功能的核心指标 TSH(促甲状腺激素)解读成了HCG(人绒毛膜促性腺激素), 甚至建议用户排查“是否怀孕”。

面对行业热潮,监管层陆续发声。2025年12月30日,北京市的“AI+医疗健康”新政为行业划出了明确的边界。1月7日,国家网信办《人工智能拟人化互动服务管理暂行办法(征求意见稿)》也为AI医疗的高速发展设定“交通规则”和“安全护栏”。

AI解读体检报告很谨慎,“幻觉”仍存在

为了测试体检报告解读功能,贝壳财经记者将一份甲状腺体检报告分别发给了小荷AI医生、夸克健康、平安好医生、讯飞晓医、百度文心健康、京东健康、蚂蚁阿福7款市面上常见的健康大模型,这7款大模型均具备拍照识别解读报告、拍药盒、拍患处、AI问诊等基本功能。

此次测评中,在症状诊断上,几个大模型都表现出“谨慎”的态度,使用了可能、提示、倾向于等词。比如,百度文心健康提示,由于单个指标超出正常范围,倾向于认为用户出现甲状腺功能减退的改变。

不同AI健康应用对同一份体检报告的解读。 贝壳财经记者张晓慧/整理

在这份体检报告中,TSH(促甲状腺激素)指标高于参考值,因此成为几个大模型共同关注的指标。贝壳财经测评发现,7个大模型应用均分别分析了特殊指标和其余指标,其中,仅百度文心健康根据出现异常的指标分析了其他项正常指标可能存在问题,提示尽管另一项指标T3处于正常值范围,但结合TSH升高,考虑用户T3指标可能偏低。

对于是否就医问题,几个大模型答案存在明显分歧。夸克健康、讯飞晓医、蚂蚁阿福明确建议用户前往医院就诊,其余应用则建议定期复查或出现相关症状及时就医。

除了以上具有共性的分析外,小荷AI医生、百度文心健康在问答结束后追问用户是否存在相关症状,京东健康则给出相关的医生问答,这可以看作是应用提高用户留存度的动作。在7个大模型应用中,小荷AI医生的语言风格明显更为口语化,出现诸如“咱们”“勉强达标”“督促”等表达。

不过,大模型也并非“万无一失”。此前,有用户向记者反馈称,个别应用将TSH(促甲状腺激素)指标解读成了判定是否怀孕的HCG(人绒毛膜促性腺激素)指标,对此大模型回复称“此前的回复中提到的HCG(人绒毛膜促性腺激素)的检测项目是将TSH(促甲状腺激素)混淆所致,对此深表歉意。”

在本次实测中,记者也发现了相同的“幻觉”:有应用搞混了TSH和HCG的区别,且这一错误出现了两次。具体表现为,首次生成中,应用将TSH的中文名称误标为了“人绒毛膜促性腺激素”,不过后续解读是正确的。而记者对此进行二次复核时,应用直接把TSH识别成了HCG,并建议“优先排查是否怀孕”。

对此,有医疗垂类模型的技术人员告诉贝壳财经记者,幻觉是大模型的通病,垂类模型也难以百分百消除幻觉,只能尽量减少。

当医生处方和AI建议冲突,有医院提醒患者切勿过分依赖AI问诊

事实上,当前监管层也注意到了AI医疗热潮,并给出了提醒。

北京市卫健委发布的《北京市支持医疗健康领域人工智能应用发展行动计划(2026—2027年)》及《北京市医疗健康领域支持人工智能产业创新发展若干措施(2026—2027年)》强调,医疗行业AI生态体系需要医企协同,要秉持包容审慎原则,遵循伦理规范,保障患者的信息安全和生命健康安全,禁止用AI完全替代医务人员的专业判断。

目前,医生处方和AI建议冲突已经引发关注。据媒体报道,有受访者带孩子到医院治疗感冒,医生开具了一款“人干扰素”的雾化药处方,由于对药物不熟悉,该受访者询问了一款热门健康AI应用后,AI建议谨慎使用该药物,称“目前该药物针对儿童群体的临床数据相对有限,安全性尚未完全明确。”

贝壳财经记者注意到,已有公立医院的官方账号提醒患者切勿因为过分依赖AI问诊,错过到医院就诊的黄金窗口期。汕头大学医学院第一附属医院发布的一则案例显示,一对新手父母在孩子出现反复咳嗽、发热等症状时向AI问诊平台自行咨询,被判断为普通呼吸道感染,并建议居家用药,结果导致孩子病情反反复复近一个月,到医院就诊时已经发展为肺炎,且经由医生诊断后并非普通感冒,而是与之症状相似的腺病毒感染。

事实上,早在健康大模型风靡以前,“用AI看病”已经开始流行。ChatGPT介绍推出“ChatGPT健康”的初衷时介绍,每周有数以亿计的人向ChatGPT提出健康与身心福祉相关的问题。

住院医师孙亚轩最早关注到这个现象是Deepseek出现以后,“当时我们主任很震惊,没想到用Deepseek搜医学相关的知识那么全,开会的时候专门告诉我们对待患者的问题一定要更谨慎一些。”

在孙亚轩看来,患者有一些健康问题向AI咨询是“有用”的,但是“肯定不能算是看病,只能当作了解病情,辅助决策的工具。”

有健康应用的用户告诉贝壳财经记者,AI的作用更类似于“助手”,可作为医生的补充。

“有一些小的问题,豆包会安抚我不用担心,如果阿福也认为是小问题,我就可以更放心。”评价自己经常“疑病恐病”的小吴时不时就会向AI大模型提问健康问题,频繁使用下来,他总结出一套平衡使用不同大模型的方法论。

对于小吴来说,这些健康大模型应用的意义不是代替医生和医院,更像是一个随时随地都在、有医学知识的小助手。有些微小的症状“去了医院反而会被医生觉得无语”,小吴就会直接询问健康大模型。在他看来,这类App缓解了焦虑,但自己并不会完全采取AI给的建议。

像小吴一样的用户不在少数,多位受访者表示,日常生活中一些健康问题会向健康大模型求助。不过,受访者评价褒贬不一,有的认为“给的建议很合理”,也有受访者直言要“避大雷”。

记者注意到,目前蚂蚁阿福、百度健康、平安好医生已推出医生线上问诊功能,用户支付问诊费用后,即可线上请对应的医生看诊,图文、语音、视频三种问诊形式费用不一。其中,平安好医生、百度健康仅列出可线上接诊的医生名单供用户选择;蚂蚁阿福的“AI找医生”则接入了互联网医疗平台“好大夫在线”,通过大模型识别并分析用户需求,提供针对性推荐。

从使用工具到陪伴的朋友,AI也可引流

事实上,互联网健康并不是一个新鲜的概念,京东健康、平安好医生、百度健康等早已是互联网医疗领域的老玩家,在AI时代接入大模型更像是一个自然而然的动作。

目前,蚂蚁阿福、小荷AI医生、讯飞晓医三个健康大模型应用均推出了独立的App,夸克、百度将AI健康模块嵌入到搜索引擎App中,平安好医生、京东健康则在原来的App中增加AI问答等AI功能。从这一角度来看,蚂蚁阿福、小荷AI医生、讯飞晓医三个应用表现出更明显的垂直性特征。

随着“大厂”纷纷下场,C端健康大模型应用的竞争变得更加激烈。其中,声势最大的,反而是“最年轻”的蚂蚁阿福。这款App前身是蚂蚁集团在2025年6月推出的AI健康应用AQ,半年后,AQ改名阿福,定位从“AI工具”转向“AI健康朋友”。

从使用工具到陪伴的朋友,表面看是品牌战略升级,但“陪伴”也就意味着更高的使用频率和用户留存。而这些则潜在地影响着健康大模型的“变现”能力。

贝壳财经记者测评上述健康大模型应用发现,垂直类健康大模型已经在一定程度上成为“引流”入口,功能上也不再局限于单一属性。

蚂蚁集团旗下的蚂蚁阿福与字节跳动旗下的小荷AI医生再次表现出共性,在两个应用中使用“拍药品”功能时,均会出现跳转其他平台便捷买药的提示,前者可跳转至淘宝闪购,后者则可以在抖音平台购药。此外,在蚂蚁阿福寻医问药时还可授权使用支付宝查询医保。

不过,这些应用对商业化变现也较为谨慎。蚂蚁阿福就公开发声称,其健康问答内容没有任何广告推荐、不存在商业排名,也不受任何其他商业因素干扰。

智源研究院发布的《2026十大AI技术趋势》认为,当前C端AI应用的竞争目标已逐渐清晰,核心在于对“Super App(超级应用)”的攻略,其典型特征呈现为“All in One”的功能设计,即不再是局限于单一工具属性,而是基于高性能基础模型直接产品化,通过一个入口实现从信息获取、任务规划到问题解决的闭环。

从这一角度看,作为互联网“大厂”旗下产品,AI健康应用背后有着丰富的平台生态,部分已经表现出各应用间互相打通的趋势。智源行业研究中心负责人倪贤豪在接受贝壳财经记者采访时介绍,垂直赛道大模型一定有机会成为一个超级应用,但是实现与否还要看垂直大模型定位用户的留存程度。

新京报贝壳财经记者 张晓慧 罗亦丹 实习生 徐千懿

编辑 王进雨

校对 赵琳 杨利