Redis的开发者antirez发了篇博客“推理模型本质上就是大型语言模型”,反

又仁看科技 2025-02-10 09:19:50

Redis的开发者antirez发了篇博客“推理模型本质上就是大型语言模型”,反驳了一些人对LLMs的观点(似乎是说杨立昆和 Gary Marcus ?),指出LLMs并非像部分人所认为的那样是“死胡同”,而是可以通过无监督预训练和强化学习等方式实现复杂推理。

文章不太长,翻译下:

--------------------------------------------------

这已经不是什么新鲜事了,但它正在加速发展。 曾经有人说,大型语言模型从根本上来说是一种有缺陷的方式,无法实现任何有用的推理,也无法开发出任何具有一定通用性的实用工具。现在,这些人开始“洗牌”,希望能让自己看起来不那么错误。 他们说:“我们看到的进步是由于像 OpenAI 的 o1 或 DeepSeek R1 这样的模型不仅仅是大型语言模型。” 这是错误的,而且尽早揭示他们的故弄玄虚非常重要。

首先,DeepSeek R1(我不想谈论 o1/o3,因为这是我们无法访问的私有产品,但很可能情况类似)是一个纯粹的仅解码器自回归模型。 它仍然是之前被强烈批评的“下一个词元预测”模型。 在模型的任何地方,都不存在任何显式的符号推理或表示。

此外,R1 Zero 拥有与 R1 相似的推理能力,并且不需要任何监督微调。 仅仅通过生成思维链 (chain of thoughts),并使用奖励函数通过强化学习进行改进,就足以学习到更强大的推理形式。 有趣的是,这些能力的一部分很容易通过监督微调 (SFT) 提炼到更小的模型中,这引出了我的下一个观点。

另一个基本的观察是,S1 论文表明,你只需要非常少的示例(少至 1000 个),模型就能开始构建复杂的推理步骤并解决非平凡的数学问题。 S1 和 R1 Zero 都暗示,在某种程度上,模型在预训练步骤中已经学习了执行推理所需的表示,而这仅仅是通过无监督的“下一个词预测”训练目标实现的。

因此,不仅 R1 在其基本结构上是一个标准的 LLM,而且无监督的预训练也创造了足够的表示和潜力,使得足够强大的 LLM,通过强化学习(和/或一些轻微的监督微调),学会了回复用户提出的复杂问题(我指的是指令模型,这是一个老旧但仍然令人印象深刻的能力),并使用思维链来推理事物并提供更好的答案。

推理模型本质上就是大型语言模型,而那些说 LLM 是死胡同的人完全错了。 好吧,犯错是常有的事(即使这次的错误表现得特别咄咄逼人,特别是在否认证据的情况下)。 然而,为了站在正确的一边而试图篡改历史和术语,对我来说是不可接受的。

0 阅读:1
又仁看科技

又仁看科技

感谢大家的关注