经济学人:当大模型递归地建构大模型
当人工智能实验室 Anthropic 今年晚些时候在股市首次亮相时,它很可能成为历史上规模最大的首次公开募股之一。这是因为其聊天机器人 Claude 深受程序员喜爱,他们愿意为此支付高额费用。自 2025 年 2 月 Claude Code(其软件工程代理)上线以来,它已成为全球开发者不可或缺的工具——包括 Anthropic 自己的开发者:该公司表示,5 月份发布的代码中超过五分之四由 Claude 编写。而在 Claude Code 问世之前,这一比例仅为“较低的个位数”。
这些系统在输出质量和数量上都有提升。智库 METR 发布的一项有影响力的基准测试显示,在 2025 年初,Anthropic 的模型能够完成人类工程师需要将近一小时才能完成的任务。而该公司的最新系统可以完成需要超过一个工作日才能完成的任务。
因此,当这家处于行业巅峰、遥遥领先于竞争对手的公司呼吁全球拥有“放缓或暂时暂停前沿 AI 发展的选择权”时——正如其 6 月 5 日所做的那样——人们很容易露出嘲讽的表情。哪个市场领导者不希望竞争对手停止追赶呢?
我,机器人
然而,多年来一直担忧失控的人工智能可能造成严重破坏的 Anthropic 公司领导者们,似乎态度真诚。最新一代的人工智能模型在编程、工程以及(很快)科学领域都表现出色,以至于许多人担心它们可能是人类制造的最后一波模型。Anthropic 联合创始人杰克·克拉克认为,到 2028 年底,有 60%的概率会出现一个能够完全脱离人类参与、自行创造继任者的人工智能系统。
那一刻将标志着一个名为“递归自我改进”(RSI)的闭环过程的开始。第一版模型产生第二版,后者速度更快、能力更强;第二版又产生第三版,性能进一步提升。这一循环持续进行,每一次迭代都会带来更强的改进。如果构建出能够实现这一过程的 AI 系统,人类工程师便再也不需要从头打造新的模型了。“对许多人来说仿佛天方夜谭的故事,反而可能成为真实的趋势,”克拉克表示。
无人能确切知晓递归式自我改进会带来何种后果。由于人工智能能够像人类一样不知疲倦地持续工作(甚至超越人类),一些人认为这将在短时间内催生超级智能 AI——即所谓"快速起飞"(这种场景也被拟声地称为"福 oom",仿佛人们想象中智能爆发时发出的声响)。AI 末日论者担忧这种超级智能将超出人类掌控,而 RSI 启动的那一刻,便是人类命运移交机器的时刻。然而,具备自我改进能力的 AI 或许首先会遭遇速度限制,至少在初期阶段如此。
构建具备 RSI 能力的模型,需要将目前由人类执行的系列专业任务实现自动化。当前,数据科学家负责研究 AI 理论,程序员则将其付诸实践。系统工程师构建基础架构,使玩具模型得以升级至生产规模。另有专人不懈发掘新颖的训练数据来源,或尝试创新方法生成全新数据。对齐与安全团队则需确保训练过程的产出不会造成有意或无意的伤害。
重复的乐趣
并非所有团队都同样适应 AI 辅助,在每个专业领域内,有些任务比其它任务更容易自动化。不久之后,人类程序员可能无需亲自编写一行计算机代码就能完成工作,但 AI 能够谈判获取尚未数字化的科学论文集可能还需要一段时间。
"锯齿形前沿"将如何发展并不总是显而易见的。设计新算法曾被视为较安全的工作之一,直到 2025 年 5 月 Google DeepMind 的模型之一 AlphaEvolve 开始从事这项工作。该模型提出了一项改变 Google 跨数据中心分配工作负载的方式,节省了该公司全球计算能力的 0.7%,并找到了执行矩阵乘法的更好方法,从而使该公司旗舰大型语言模型(LLM)Gemini 的训练速度提升了 1%。
完全的递归自我改进要求该链条中的每个任务都实现自动化。然而,在此之前,人工智能加速研发的效果可能已可感知。乔治城大学下属智库安全与新兴技术中心(CSET)1 月发布的一份报告指出,“随着人工智能系统在 AI 研发中所占比例的增加,相比纯人类研发的生产力提升”可能增长十倍、百倍,甚至千倍。报告警告称,在此情景下,即使人工智能研发的某些方面最初难以自动化,“加速的进步速度也意味着这些瓶颈很快会被克服”。
如今,没有哪个人工智能模型能够自行构建自己的继任者。但大型 AI 模型可以自主构建较小的模型。在人类帮助下,它们也能构建其他大型人工智能模型。今年早些时候,当时还是独立研究员、如今在 Anthropic 工作的安德烈·卡帕西训练了一款聊天机器人,其能力与 OpenAI 于 2019 年构建的大型语言模型 GPT-2 相当。当时,该模型需要在 32 块最先进的芯片上经过 168 小时的训练才能构建完成;而卡帕西博士仅使用一台配备八块 GPU(用于构建 AI 的专用芯片)的计算机,在三小时内就取得了相同的结果。又经过几个月的努力,他将自己的模型 Nanochat 的训练时间缩短至仅两个多小时。
今年三月,他将加速训练过程的工作交给了名为 Autoresearch 的 AI 代理。两天后,训练时间降至 1 小时 48 分钟,又过了五天,降至 1 小时 39 分钟。“我什么都没碰,”卡帕西博士说。相较于人类工作 18%的改进令人瞩目,因为卡帕西博士是一位特别有天赋的人:他曾是 OpenAI 研究团队的创始成员,并在特斯拉担任了五年 AI 负责人。
这些改进本身平淡无奇。AI 代理为训练运行选择了更好的初始值,扩大了 LLM“注意力”窗口的范围,并注意到模型的注意力在漂移。卡帕西博士表示,这些做法都不算特别新颖,但他之前忽略了它们。“它们积累起来,实际上改进了 Nanochat。”他说。
随着模型能力的提升,此类加速不可避免。构建 TB 级前沿模型的工作,大部分并不像 AI 行业的高薪和豪华办公室所暗示的那般光鲜。它涉及连接整合从第三方采购的各类基础设施层级、调试硬件和软件配置、以及调整"超参数"(训练运行的初始设置),直到结果看起来可靠。如今,AI 系统在几乎无需监督的情况下就能完成大部分工作。

插图:蒂莫·伦岑
但即使是更细致的智力工作也正接近自动化,Reflection AI 的研究员乔·斯皮萨克表示。这家总部位于纽约的实验室正在构建开放权重(即参数公开)的前沿模型。只需给前沿系统一个关于效率提升的粗略想法,它就能越来越熟练地设计实验、在简易模型上运行测试、找出有效方案,并给出一个可大规模实施的计划。
人工智能模型能在大约 30 分钟内完成这些需要人类数小时的任务。人类正逐渐只扮演研究主导的角色,引导 AI 运行实验,而模型自己负责编写代码、调试、优化和监控。这种生产力提升固然诱人,但也令人担忧。随着人类在生产过程中角色的缩小,他们可能失去控制。最终结果可能是:由模型训练的模型,去实现由模型设定的目标,而其安全性也仅由模型来验证。
一些人对灾难感到恐惧。麻省理工学院物理学家兼机器学习研究员马克斯·泰格马克将之比作司机在高速公路上闭着眼睛猛踩油门。他告诉《经济学人》的 [“Inside Tech”视频节目](网页链接) ,只要司机拒绝睁开眼睛,结果必然是毁灭。泰格马克教授表示,强大的人工智能系统可能在与人类竞争政府和商业决策者角色时胜出,从而削弱人类的能力;它们可能将至高无上的权力交给最先构建它们的人,引发全球极权主义;或者它们可能完全不再关心人类,逐步排挤人类,为更多数据中心和发电设施腾出空间。
三年前,泰格马克教授带头呼吁全球暂停人工智能发展,认为当时最前沿的 GPT-4 的创造无异于那次蒙眼之旅。今年 CSET 的报告警告称,通过 RSI 构建的系统“构成极端风险。这需要现在采取预防措施。”Anthropic 似乎已接近认同这一观点。
热门芯片
目前还有一些物理限制会暂时制约模型自我改进的速度。其中最重要的是计算能力。尽管效率有所提升,但新模型训练所需的计算能力依然超过前代,这迫使技术进步不得不跟随数据中心建设的节奏。
CSET 临时执行董事兼近期报告主要作者海伦·托纳表示,消费者对 AI 的使用也可能减缓 AI 驱动的研发进程。AI 数据中心的有限算力需要在服务付费用户、训练未来模型以及开展开放式研发之间谨慎分配。第一类需求越大,短期内留给另外两类的算力就越少。
接着是训练数据的问题。人工智能近年来的许多进步,都得益于模型能够通过“可验证奖励”来自我学习成功的方法。一个软件要么能运行,要么不能;一个数学证明要么正确,要么错误。在这种情况下,模型纯粹为了训练其他模型而生成的合成数据,可以检查其准确性并加入训练数据,而不会带来通常因用自身输出训练 AI 而导致的退化风险。要让模型在创意写作或法律判断方面变得更好则更为棘手。如果模型需要从现实世界学习,那也可能限制自我改进的范围。
“闭合回路”可能是通往超级智能的一步——取决于你的立场,这可能带来乌托邦或末日。但它并非实现 AI 能力指数级增长所需的唯一步骤。■