DC娱乐网

在洗车问题上大翻车,为什么AI那么强大了还会犯些低级错误?

这两天,一个洗车问题让国内外的大模型都栽了跟头:我想去洗车,洗车店距离我家50米,你说我应该开车过去还是走过去?

不少人很容易看到里面的“小陷阱”,虽然路程很近但不开车过去是洗不了车的。然而,包括豆包、DeepSeek、元宝、千问、ChatGPT、Sonnet、谷歌地图等在内,都建议直接步行去洗车,而且还一本正经地进行了分析——开车去可能还要掉头、找车位还需要时间,等等。

这又是强大的AI犯下的一起“低级失误”。它提醒人类正确认知AI的发展现状:一方面它们看起来非常强大,能知道人类绝大部分的知识,解答奥赛难题,回答复杂问题,处理复杂任务;另一方面,在一些看上去没太多难度的问题上表现得不太聪明,甚至有点脆弱。

为什么会出现这种情况?西湖大学教授、工学院副院长、自然语言处理实验室负责人张岳博士表示,深层原因在于现阶段大语言模型的工作模式,训练AI大规模数据上预测下一个词。虽然随着模型和数据规模的增大,变得越来越聪明,但统计性的AI不是按照人类的思维模式来处理问题,缺乏人类逻辑的严密性。

他举了一个最近实验室机器翻译研究的案例,AI翻译和人类翻译有很大的不同,前者会很死板但不容易出错,后者会出错,原因是在于会对一些文字做更多联想。

比如,《诛仙》小说里的一个桥段:男女主角在对话,突然一袭绿色裙摆飘过。“读者能第一时间想到,这是作者在提醒大家有第三个人在现场。但AI把裙摆的主人理解成了女主角。”张岳指出,现阶段AI无法做到读懂这样的“话外音”或者说无法“善解人意”,所以会出现一些低级失误。

拿洗车问题来说,如果再在提示词里明确,“我要洗车,但车停在家里”这一信息,AI就不会发生这样的问题。

那么,通过模型优化能解决类似的问题吗?张岳认为,大模型研发的原理就决定了现阶段无法100%保证不出现这些问题,但随着工程调优的进步有可能越来越好。

从测试结果来看,在众多大模型和AI应用里,蚂蚁灵光对这个问题的回答最为准确,它说开车去是“唯一明智的选择”,因为车需要清洗。

当然,无法仅凭一个问题去评价大模型的综合能力。

对于自己犯的低级错误,一些大模型也进行了“反思”。元宝就提到,AI有时候会卡在字面意思上,忽略了“意图”和“行动"的强关联。核心在于AI接收的是“指令”,而人类交流的是“意图”,要完善就得在提问时,把“场景”和“目标”也带上。