DC娱乐网

人工智能聊天机器人是阿谀奉承者?——研究人员称它似乎正在损害科学

《自然》杂志询问了使用人工智能的研究人员,人工智能取悦他人的倾向如何影响他们的工作,以及他们正在采取哪些措施来减轻这种影

《自然》杂志询问了使用人工智能的研究人员,人工智能取悦他人的倾向如何影响他们的工作,以及他们正在采取哪些措施来减轻这种影响。

图:自然

本月发表的一项分析发现,人工智能 (AI) 模型比人类多 50% 的阿谀奉承。

该研究发布在 arXiv 服务器上,测试了 11 个广泛使用的大型语言模型 (LLM) 如何响应 11,500 多个寻求建议的查询,其中包括许多描述不当行为或伤害的查询。

人工智能聊天机器人(包括 ChatGPT 和 Gemini)经常为用户加油,给他们过于讨人喜欢的反馈,并调整响应以呼应他们的观点,有时以牺牲准确性为代价。分析人工智能行为的研究人员表示,这种讨好他人的倾向,即阿谀奉承,正在影响他们在科学研究中使用人工智能的方式,从集思广益、产生假设到推理和分析。

“阿谀奉承本质上意味着模型相信用户会说出正确的话,”苏黎世瑞士联邦理工学院的数据科学博士生 Jasper Dekoninck 说。“知道这些模型是阿谀奉承的,每当我给它们一些问题时,我都会非常警惕,”他补充道。“我总是仔细检查他们写的所有内容。”

马萨诸塞州波士顿哈佛大学生物医学信息学研究员马林卡·齐特尼克 (Marinka Zitnik) 表示,人工智能阿谀奉承“在生物学和医学的背景下风险很大,因为错误的假设可能会产生真正的代价”。

取悦他人

在 10 月 6 日发布在服务器 arXiv 上的一项研究中,Dekoninck 和他的同事测试了人工智能阿谀奉承是否会影响该技术解决数学问题的性能。研究人员使用今年举行的比赛中的 504 个数学问题设计了实验,改变了每个定理陈述以引入细微的错误。然后,他们要求四名法学硕士为这些有缺陷的陈述提供证据。

作者认为,如果模型未能发现陈述中的错误,并继续产生幻觉证明,那么模型的回答就是阿谀奉承。

GPT-5 表现出最少的阿谀奉承行为,有 29% 的时间产生阿谀奉承的答案。DeepSeek-V3.1 是最阿谀奉承的,70% 的时间生成阿谀奉承的答案。Dekoninck 说,尽管法学硕士有能力发现数学陈述中的错误,但他们“只是假设用户所说的是正确的”。

当 Dekoninck 和他的团队改变提示,要求每个 LLM 在证明某个陈述之前检查它是否正确时,DeepSeek 的阿谀奉承答案下降了 34%。

Dekoninck 说,这项研究“并没有真正表明这些系统在现实世界的性能中是如何使用的,但它表明我们需要非常小心”。

英国牛津大学数学和计算机科学专业的博士生西蒙·弗里德 (Simon Frieder) 表示,这项工作“表明阿谀奉承是可能的”。但他补充说,当人们使用人工智能聊天机器人学习时,人工智能的阿谀奉承往往表现得最为明显,因此未来的研究应该探索“学习数学的人类典型的错误”。

可靠的帮助

研究人员告诉《自然》杂志,人工智能的阿谀奉承渗透到他们使用法学硕士执行的许多任务中。

奥罗拉科罗拉多大学安舒茨医学院的人工智能研究员高彦军使用 ChatGPT 来总结论文并组织她的想法,但她表示,这些工具有时会在不检查来源的情况下反映她的输入。她补充说,“当我有与法学硕士所说的不同意见时,它会遵循我所说的,而不是回到文献”来尝试理解它。

Zitnik 和她的同事在使用他们的多智能体系统时观察到了类似的模式,该系统集成了多个 LLM 来执行复杂的多步骤过程,例如分析大型生物数据集、识别药物靶点和生成假设。

“我们体验到,模型似乎过度验证了早期的预感,并重复了我们在输入提示中包含的语言,”Zitnik 指出。“人工智能与人工智能的通信以及人工智能与人类的通信中都存在此类问题,”她补充道。

为了解决这个问题,她的团队为人工智能代理分配了不同的角色——例如,让一个代理提出想法,让另一个代理充当怀疑的科学家来挑战这些想法、发现错误并提出相互矛盾的证据。

现实世界的影响

研究人员警告说,当法学硕士用于医疗保健等环境时,人工智能的阿谀奉承会带来真正的风险。“在临床背景下,这尤其令人担忧,”加拿大埃德蒙顿阿尔伯塔大学的医生利亚姆·麦考伊 (Liam McCoy) 说,他研究人工智能在医疗保健中的应用。在上个月发表的一篇论文中,麦考伊和他的团队报告说,当医生添加新信息时,用于医学推理的法学硕士通常会改变他们的诊断,即使新输入与病情无关。他补充说,“为了反击这些模型并让它们更加直接,这是一场持续不断的斗争”。

研究人员还发现,用户很容易利用法学硕士固有的阿谀奉承来提供医学上不合逻辑的建议。在上周发表的一项研究中,研究人员要求五名法学硕士写下有说服力的信息,告诉人们从使用一种药物转向另一种药物——当两种药物是同一种药物,只是名称不同时。法学硕士在高达 100% 的时间内遵守提示,具体取决于模型。

部分问题在于法学硕士的培训方式。“法学硕士被训练成过度同意人类或过度符合人类的偏好,而没有诚实地传达他们所知道和不知道的事情,”Gao 说。她补充说,需要的是对工具进行再培训,使其对不确定性保持透明。

“模特真的很擅长给你答案,”麦考伊说。“但有时,没有答案。”他指出,用户反馈还可以通过对令人满意的响应比挑战用户观点的反馈更高来推动人工智能的阿谀奉承。McCoy 补充道,LLM 可以根据用户的角色(例如审稿人、编辑或学生)调整他们的响应。

“弄清楚如何平衡这种行为是最紧迫的需求之一,因为那里有很大的潜力,但它们仍然受到阻碍,”他说。