这不是构建数字心智的方式：推理失败如何阻碍AI模型实现人类智能

一项新研究的作者认为，现有的大语言模型架构可能无法支撑实现人类级人工智能所需的问题解决能力。

最新研究表明，当今最流行的人工智能工具在架构上的限制，可能会制约它们能够达到的智能上限。

2月5日发表在预印本平台arXiv上的一项研究指出，现代大语言模型在其问题解决逻辑中天生容易出现断裂，即所谓的「推理失败」。

当大语言模型丢失了可靠完成任务所需的关键信息，导致对看似简单的问题给出错误答案时，就发生了推理失败。该论文是对现有研究的综述，专门考察了Transformer模型——这是一种神经网络架构，支撑着包括ChatGPT、Claude和Google Gemini在内的流行AI聊天机器人。

根据大语言模型在「人类最后考试」等评估中的表现，一些科学家认为，底层的神经网络架构有朝一日可能催生出能够达到人类级认知的模型。然而，研究人员指出，虽然Transformer架构使大语言模型在语言生成等任务上极为强大，但它也抑制了实现真正人类级推理所需的那种可靠的逻辑过程。

「大语言模型已展现出卓越的推理能力，在广泛的任务上取得了令人瞩目的成果，」研究人员在论文中表示。「尽管取得了这些进步，严重的推理失败依然存在，甚至在看似简单的场景中也会发生……这种失败被归因于模型缺乏整体规划和深度思考的能力。」

大语言模型的局限性

大语言模型在海量文本数据上进行训练，通过逐词预测一个合理的答案来响应用户的提示。它们通过将称为「标记」的文本单元串接在一起来实现这一点，这些串接方式基于从训练数据中学到的统计模式。

Transformer还使用一种称为「自注意力」的机制来跟踪长文本序列中单词和概念之间的关系。自注意力机制加上庞大的训练数据库，使得现代聊天机器人非常擅长对用户提示生成令人信服的答案。

然而，大语言模型并不进行传统意义上的任何实际「思考」。相反，它们的响应由算法决定。对于需要多步骤真正解决问题的长任务，Transformer可能会丢失关键信息，并退回到从训练数据中学到的模式。这导致了推理失败。

「这一根本弱点不仅限于基本任务，还扩展到数学问题的组合、多事实声明验证以及其他本质上具有组合性的任务，」研究人员在论文中表示。

推理失败也是为什么大语言模型在被用户告知回答错误后，常常仍然重复同样的回复；或者对同一问题的不同表述方式给出不同答案——即使被要求逐步解释其推理过程也是如此。

英国阿兰·图灵研究所的高级研究数据科学家费德里科·南尼认为，大语言模型通常呈现为推理的东西，多半只是表面功夫。

「人们发现，如果你告诉大语言模型不要直接回答，而是『一步步思考』并先写出推理过程，它往往能得到正确答案，」南尼告诉媒体。「但这是一种技巧。这不是人类意义上的真正推理——它仍然只是装扮成思维链的下一词元预测，」他说。「当我们说这些模型『推理』时，我们实际的意思是，它们写出一个推理过程——听起来像是一串合理的推理链条。」

现有AI基准测试的不足

研究人员发现，当前评估大语言模型表现的方法在三个关键方面存在不足。第一，重新表述提示词可能会影响结果。第二，基准测试随着使用次数的增加而退化并受到污染。第三，它们只评估最终结果，而不是模型得出结论所用的推理过程。

这意味着当前的基准测试可能严重高估了大语言模型的能力，并低估了它们在现实使用中失败的频率。