Redis的开发者antirez发了篇博客“推理模型本质上就是大型语言模型”，反

蚁工厂 2025-02-10 09:19:50

Redis的开发者antirez发了篇博客“推理模型本质上就是大型语言模型”，反驳了一些人对LLMs的观点（似乎是说杨立昆和 Gary Marcus ？），指出LLMs并非像部分人所认为的那样是“死胡同”，而是可以通过无监督预训练和强化学习等方式实现复杂推理。

文章不太长，翻译下：

--------------------------------------------------

这已经不是什么新鲜事了，但它正在加速发展。曾经有人说，大型语言模型从根本上来说是一种有缺陷的方式，无法实现任何有用的推理，也无法开发出任何具有一定通用性的实用工具。现在，这些人开始“洗牌”，希望能让自己看起来不那么错误。他们说：“我们看到的进步是由于像 OpenAI 的 o1 或 DeepSeek R1 这样的模型不仅仅是大型语言模型。” 这是错误的，而且尽早揭示他们的故弄玄虚非常重要。

首先，DeepSeek R1（我不想谈论 o1/o3，因为这是我们无法访问的私有产品，但很可能情况类似）是一个纯粹的仅解码器自回归模型。它仍然是之前被强烈批评的“下一个词元预测”模型。在模型的任何地方，都不存在任何显式的符号推理或表示。

此外，R1 Zero 拥有与 R1 相似的推理能力，并且不需要任何监督微调。仅仅通过生成思维链 (chain of thoughts)，并使用奖励函数通过强化学习进行改进，就足以学习到更强大的推理形式。有趣的是，这些能力的一部分很容易通过监督微调 (SFT) 提炼到更小的模型中，这引出了我的下一个观点。

另一个基本的观察是，S1 论文表明，你只需要非常少的示例（少至 1000 个），模型就能开始构建复杂的推理步骤并解决非平凡的数学问题。 S1 和 R1 Zero 都暗示，在某种程度上，模型在预训练步骤中已经学习了执行推理所需的表示，而这仅仅是通过无监督的“下一个词预测”训练目标实现的。

因此，不仅 R1 在其基本结构上是一个标准的 LLM，而且无监督的预训练也创造了足够的表示和潜力，使得足够强大的 LLM，通过强化学习（和/或一些轻微的监督微调），学会了回复用户提出的复杂问题（我指的是指令模型，这是一个老旧但仍然令人印象深刻的能力），并使用思维链来推理事物并提供更好的答案。

推理模型本质上就是大型语言模型，而那些说 LLM 是死胡同的人完全错了。好吧，犯错是常有的事（即使这次的错误表现得特别咄咄逼人，特别是在否认证据的情况下）。然而，为了站在正确的一边而试图篡改历史和术语，对我来说是不可接受的。

0 阅读：1