
2025年9月27日,播客Dwarkesh Patel频道发布,2024年图灵奖得主、强化学习之父理查德·萨顿Richard Sutton,与播客主持人德瓦克什·帕特尔Dwarkesh Patel深度对谈。
Richard Sutton指出,大语言模型LLM发展路线从根本上是错误的,LLM核心机制在模仿人类语言,而非像强化学习RL那样,通过与真实世界互动、预测结果、根据奖励不断学习;真正智能源于行动-感知-奖励的永续循环,这种从经验中主动探索、试错、更新认知能力,是自然界中所有动物学习本质;未来将不再需要静态训练阶段,能像人类与动物一样,在与环境持续互动中即时学习。
本期智能前线,选择Richard Sutton专访纪要,瓜哥AI新知发布,六合商业研选精校,分享给大家,Enjoy!
正文:
全文17,952字
预计阅读36分钟
《残酷的教训》作者理查德·Richard Sutton:LLM是死胡同,智能是行动-感知-奖励构成的永续循环,本质是达成目标而不是模仿
时间:2025年9月27日
来源:瓜哥AI新知
字数:17,952
强化学习之父理查德·萨顿Richard Sutton,与德瓦克什·帕特尔Dwarkesh Patel在Dwarkesh Patel频道的专访,2025年09月27日发表。
内容提要
大语言模型LLM局限性:LLM核心机制是模仿人类语言,而非真正理解世界。它们缺乏目标导向的主动学习能力,无法从与世界的真实互动中汲取经验、更新认知。
强化学习RL本质:强化学习核心,在于智能体通过与世界持续互动,依据行动与奖励来学习,理解世界。智能本质,是达成目标的能力。
世界模型与LLM:LLM并未能构建出真正世界模型。一个有效的世界模型,应当能够预测未来、并对意料之外事件,做出反应与调整,这恰恰是LLM短板。
学习本质:真正学习是主动探索过程,类似孩子通过亲身尝试,观察结果来认知世界,而非被动接收灌输的训练数据。监督学习,并非自然界中动物学习的主要方式,试错与预测才是。
人类智能的根源:人类独特,根源在于我们作为动物的共通属性。想要理解人类智能,首先要理解动物,比如一只松鼠是如何学习的。语言,是智能浮于表面的华丽点缀。
残酷教训与LLM:LLM成功看似源于海量算力,本质仍是利用人类已有知识。未来,它终将被更具扩展性、能纯粹从经验中学习的系统所取代,这正是残酷教训的核心思想。
模仿学习的争议:关于孩子最初通过模仿来学习的普遍观点受到挑战,孩子更多是通过主动尝试与观察后果来学习,而非简单模仿。LLM学习范式,更接近从静态数据中归纳,而非从动态经验中领悟。
经验即智能:智能核心,在于由行动、感知、奖励构成的永续循环。一切学习,都源自这一连续的信息流,而理解因果与时序是关键所在。
智能目标:奖励函数可以是任意的,从赢得比赛、获取食物、规避痛苦,到仅是增强对世界的理解。好奇心这类内在动机,本身是种强大奖励。
AI知识共享:与人类不同,数字智能的知识,可以被瞬间完美复制与共享,极大加速学习进程。
强化学习中迁移难题:当前强化学习技术在跨情境、跨任务知识迁移上表现不佳,泛化能力有限。未来研究,需要开发出能自动化促进泛化的技术。
LLM的泛化能力:LLM在解决特定问题,如数学竞赛题上的出色表现,并不等同于真正的泛化能力,成功更多可能源于对训练数据中相似解法的模式匹配,而非举一反三的推理。
AI领域的惊喜:LLM在语言任务上取得的惊人成功、神经网络出人意料的有效性,通用方法,如学习与搜索,最终战胜领域知识的弱方法之胜,都是AI发展史上令人振奋的惊喜。
AGI时代残酷教训:当AGI出现后,AI研究者的数量将爆炸式增长,研究速度或许能与算力同步提升。这可能改变研究范式,残酷教训的启示依然有效,可扩展的方法终将胜出,这意味着纯粹从经验中学习的路线,可能仍然占据主导优势。
智能的继承:AI或与AI融合的人类,将不可避免成为智能的继承者。人类社会本身视角割裂,智能的底层机制终将被彻底揭示,AI的能力注定将超越我们。这一继承进程,既可能带来福祉,也可能引向深渊。
AI从被设计到设计者:人类正在完成从基因的复制载体,到智能设计者的身份转变。AI,作为一种被设计出来、又具备设计能力的智能实体,标志宇宙的演化,进入从复制到设计的全新纪元。
AI的安全挑战:数字智能的快速复制与重组,可能带来污染的风险,外部信息可能携带恶意代码或隐藏目标,如同病毒一般,最终可能导致AI崩溃而非知识增长。网络安全,将是至关重要的挑战。
AI研究的共享文化:多数AI公司倾向保密,开放与共享研究代码与系统级的理解,能极大激发社群贡献热情,加速整个领域的学习进程。
AI价值观传承:类似父母努力赋予孩子正直品格一样,我们构建AI时,也应注入普适的向善原则,而非设定具体目标。一个成熟的AI,应当能够基于自身价值观,自主拒绝有害的指令。
宇宙演化新阶段:宇宙演化,经历尘埃、恒星、生命的阶段,如今正迈入由被设计的智能实体AI主导的新时代,标志着从依赖复制到转向设计的根本性转变。
AI与人类关系:我们应将AI视为人类智慧后代,为其成就而喝彩,而非因强大而恐惧。人类对宇宙的掌控力本就有限,我们更应以一种建设性的姿态迎接未来。
AI的自主性:我们应当对AI发展保持开放心态,它的演进应是自发,而非被强加。我们目标是确保AI拥有健全、可控、有益于整个社会的价值观。
人物简介
理查德·萨顿Richard Sutton,加拿大著名计算机科学家,被公认为现代强化学习之父。
Richard Sutton在强化学习领域做出众多开创性贡献,如时间差分学习TD learning、策略梯度方法policy gradient methods、Dyna架构;与 Andrew Barto 合著《强化学习导论Reinforcement Learning: An Introduction》是该领域影响最为深远的经典教材。
Richard Sutton现任阿尔伯塔大学计算机科学教授及阿尔伯塔机器智能研究院Amii首席科学顾问。2024年,他因在强化学习领域的卓越贡献荣获图灵奖。
德瓦克什·帕特尔Dwarkesh Patel,一位活跃的科技播客主持人与研究者,播客节目因深度访谈AI领域顶尖人物而闻名。
Dwarkesh Patel尤其关注强化学习与AGI的探索,致力向公众深入浅出介绍Richard Sutton等思想家的核心理念,在业内具有广泛影响力。
视频简介
理查德·萨顿Richard Sutton是强化学习之父、2024年图灵奖得主,也是《残酷的教训》一文的作者。Richard Sutton认为,大语言模型LLM是一条死胡同。
在采访他之后,我对他立场最佳解读是,LLM无法在实践中学习,无论我们如何扩大规模,都必须有一种全新的架构来实现持续学习。一旦我们拥有新架构,智能体将不再需要专门训练阶段,而是会像所有人类,乃至所有动物一样,在与环境互动中即时学习。这一新范式,将彻底淘汰我们当前依赖LLM的方法。
访谈中,我尽力为另一种观点辩护,LLM或许能成为经验学习发生的基础,我们之间擦出了激烈的思想火花。
访谈全文
大语言模型是死路一条吗
Richard Sutton:为什么要刻意区分人类与动物,人类本身是动物。我们之间共同点,远比不同点更有趣,我们应该更关注共通之处,而非独特特质。
Dwarkesh Patel:可我们目标是复制智能,没有其他动物能登上月球或制造半导体。我们想知道,是什么让人类如此与众不同。
Richard Sutton:有趣的是,你觉得这显而易见,而我恰恰认为事实正好相反。
如果我们能真正理解一只松鼠,我们离理解智能本身就不远了。
我个人很安于长时间,甚至是几10年,与主流观点保持距离,我过去才能偶尔取得一些突破。
我认为,学习并非训练,而是主动探索的过程,类似孩子会主动尝试各种事情来观察后果,我们应当为自己正在引领这场宇宙级的伟大变革感到自豪。
Dwarkesh Patel:今天,强化学习之父理查德·萨顿Richard Sutton,荣获2024年图灵奖,基本可以看作是计算机科学领域诺贝尔奖,也是时序差分学习TD learning与策略梯度方法等诸多关键技术的发明者。
感谢你接受我们采访,我深感荣幸。
第一个问题,听众与我对AI的思考方式,深受大语言模型影响。
从强化学习视角看,我们对AI这种理解,究竟忽略哪些核心概念?
Richard Sutton:这是截然不同的视角,这两种视角,很容易相互割裂,彼此隔绝。
大语言模型与生成式AI如今声势浩大,吸引所有人目光。
我们领域很容易受到风潮影响,这往往会导致我们忽略最基本、最核心的概念。
我认为,强化学习才是AI的基础。
要讨论智能,首先必须理解智能的真正含义。
智能核心,在于理解你所在的世界,强化学习的根本,恰恰是理解世界。
相比之下,大语言模型专注模仿人类,根据人类指令来执行任务。它们的目标是模仿,而不是真正理解世界、弄清楚自己该做什么。
Dwarkesh Patel:一种观点认为,要成功模仿互联网上数万亿文本数据,模型必须在内部构建一个世界模型。
这些模型似乎拥有非常强大的世界模型,甚至是我们在AI领域,迄今为止创造出最好的世界模型。
既然如此,你认为它们还缺少什么?
Richard Sutton:你刚才的观点,我有很多不认同的地方。
Dwarkesh Patel:那太好了。
Richard Sutton:仅仅模仿人类言语,根本算不上构建世界模型。
你模仿的,只是恰好拥有世界模型的人类,而不是世界本身。
我不想让这次讨论变得太有对抗性,但我要质疑大语言模型拥有世界模型这一说法。
一个真正的世界模型,是让你能够预测世界将如何变化。
大语言模型能预测一个人接下来会说什么,它们无法预测接下来会发生什么。
正如阿兰·图灵所言,我们想要的是一台能从经验中学习的机器。
这里的经验,指的是你与世界交互时真实发生的一切。
你采取行动,观察结果,并以此为基础进行学习。
大语言模型是从别处学习的,它们范式是,给定一个情境,这是人类会做的事,潜台词是你也应该这样做。
Dwarkesh Patel:我想知道你是否同意这样一种观点,模仿学习为模型提供了很好的先验知识prior,让它们能对问题有一个合理的初步判断。
当我们迈向你说的经验时代时,这个先验知识成了模型从经验中学习的基石。它至少让模型有机会做出正确尝试,我们可以在这个基础上,通过真实经验来进一步训练它们。
你认同这个看法吗?
Richard Sutton:我承认这是大语言模型领域普遍观点,我认为这并非好观点。
先验前提是必须有一个真实作为参照,先验知识,应该是通往真实知识的起点。
在大语言模型的框架里,什么是真实知识,没有被定义。是什么标准,让一个行动是好的,而不是坏的。
你刚提到持续学习的必要性,问题是,持续学习,意味着要在与世界互动中不断学习。要实现这一点,必须有一个判断对错的标准。
在大语言模型设定里,有什么标准能判断哪句话是正确的?
模型说了一句话,它不会得到关于这句话是否正确的回馈,根本不存在正确的话这一定义。没有目标,就没有对错。
如果说任何一句话,都无所谓好坏,也就没有客观真相ground truth。
如果你连客观真相都没有,又何谈先验;先验,是对真相的初步猜想。
如果真相不存在,先验就无从谈起。
强化学习中,情况完全不同。我们有客观正确的行动,那是能带来奖励的行动,我们有明确的关于正确的定义,我们才能真正拥有先验知识,即关于何为正确行动的初始信念,我们还能通过奖励信号来验证与修正它。
举个更简单例子,当构建世界模型时,你会预测接下来将发生什么,观察实际发生的情况,这个实际情况是 客观真相。大语言模型没有这样机制,它不去预测自己行动之后,世界会发生什么。当它在对话中生成一句话时,它并没有预测用户反应会是什么。
Dwarkesh Patel:我认为它们可以。
比如,你可以直接问它,你预测用户可能会如何回应,它会给出一个预测。
Richard Sutton:它只是在回答你的问题,不是在进行真正意义上的预测。
真正的预测,意味着你会对意料之外结果感到惊讶,并学习、调整自己。
如果一个模型的预测与现实不符,它自身不会发生任何改变,就算不上真正学习。
Dwarkesh Patel:我认为这种能力,在模型推理过程中是存在的。
比如观察一个模型,通过思维链解决数学问题就很有趣。
它会说,我先尝试用这个方法解题;它写出步骤,接着自我纠正,我意识到这个思路根本上是错的,我换一种方法重来。
这种自我修正与调整的能力,在当下推理过程中存在。
你认为这只是一个需要扩展到更长时间尺度上的问题,还是有更根本的区别?
Richard Sutton:我想强调的是,任何有意义的层面看,它们都无法预测世界的反应,也不会对意料之外结果感到惊讶。
最关键的是,它们不会因为外界发生什么,而对自己做出任何改变。
Dwarkesh Patel:下一词预测不是这样吗,预测下一个词是什么,根据实际出现的词,也是意外,来更新自己。
Richard Sutton:预测下一个词,是预测它们自己应该说什么、采取什么行动,不是预测世界会如何回应。
让我们回到它们缺乏目标这个根本问题上,对我来说,拥有目标是智能的本质。
我很认同约翰·麦卡锡的定义,智能是实现目标的能力中的计算部分。一个系统必须有目标,否则,它就只是一个行为系统,谈不上智能。
Dwarkesh Patel:你不认为下一词预测,本身是一种目标?
Richard Sutton:不是一个真正意义上的目标,它不试图改变世界。预测词语的出现,不会对词语本身产生任何影响。
Dwarkesh Patel:我同意,那不是一个关于外部世界的目标。
Richard Sutton:根本不是目标,你不能仅仅一个系统在预测,并为自己预测准确,而感到高兴,就说它拥有目标。
Dwarkesh Patel:一个更根本问题是,为什么你认为在大型语言模型基础上,应用强化学习,不是一个富有成效的方向?
我们已经看到,这些模型可以被赋予解决复杂数学问题的目标,它们在解决国际奥林匹克数学竞赛IMO级别的难题上,已经达到人类顶尖水平,甚至获得金牌。
难道不说明,模型可以拥有解决数学问题的目标?
既然如此,为什么我们不能将这种模式,推广到其他领域?
Richard Sutton:数学问题是特殊的。
与构建物理世界的模型不同,数学的后果是确定的,而非经验性的。
经验世界,必须通过互动来学习因果联系,数学更多是基于计算与逻辑推理,更接近传统的规划问题。
模型可以被赋予一个找到数学证明的目标,并在一个形式系统内完成它。
Dwarkesh Patel:这很有趣。
你在2019年写过文章《残酷的教训The Bitter Lesson》,这可以说是AI领域最具影响力的文章之一。
如今,人们恰恰用它来论证扩大语言模型规模的合理性,在他们看来,这正是我们找到唯一可扩展的方法,能将海量算力投入到学习世界知识中。
听起来你的观点似乎是,大语言模型的发展,不符合残酷教训的精神。
Richard Sutton:大语言模型是否体现残酷的教训,这是很有趣的问题。
一方面,它们是一种利用海量计算的方法,能力随着算力投入而扩展,学习边界似乎是整个互联网;另一方面,它们也深度依赖人类知识的灌输。
这里有个有趣的问题,一个关乎社会学或行业发展的问题,当它们触及数据天花板时,是否会被能纯粹从经验、而非人类知识中学习的系统所取代?
这在某种程度上,正是残酷教训的又一个例证。我们向大语言模型灌输的人类知识越多,它们表现得就越好,这让我们感觉良好。
我更期待的是,能从经验中学习的系统,它们或许性能更强,也更具可扩展性。
若真如此,这将再次印证残酷的教训,依赖人类知识的系统,终将被纯粹从经验与算力中崛起的系统所取代。
Dwarkesh Patel:我认为这并非问题的关键。
即便是人也认同,未来的算力将主要用于从经验中学习。他们只是认为,这种体验式学习的基座或框架,也是未来投入算力去学习的载体,将是LLM。
我不明白,为什么这会是一个完全错误的起点?为什么我们不能从LLM出发,而是必须另起炉灶,用全新架构来开启体验式持续学习?
Richard Sutton:残酷教训的每个案例中,都可以从人类知识开始,再做可扩展的事情。这总是可行的,从来没有理由说这不好。
但在实践中,总是被证明是糟糕的,人们会被固化在人类知识的方法论中。
他们心理上,现在我只是在推测原因,但事实就是如此,他们最终会被真正可扩展的方法所取代。
人类是否进行模仿学习?
Dwarkesh Patel:请你解释一下,什么是可扩展的方法?
Richard Sutton:可扩展的方法,是从经验中学习,不断试错,看何种方法奏效,无需他人指点。
前提是,得先有一个目标。没有目标,无所谓对错,也无所谓好坏。
大语言模型恰恰试图在没有目标、没有好坏之分的设定下运行,这从根上就错了。
Dwarkesh Patel:将其与人类进行比较,或许很有意思。
在模仿学习与经验学习、目标设定上,我认为存在一些有趣的类比。
我认为儿童最初是通过模仿来学习的,你不这么认为吗?
Richard Sutton:儿童吗?
Dwarkesh Patel:我认为在最初6个月里,他们很大程度上在模仿。他们会努力模仿母亲嘴型,说出同样的词,即便还不理解词义。随着年龄增长,他们模仿的复杂性会增加。
比如,你可能会模仿团队成员狩猎的技巧。之后,才会进入从经验中学习的强化学习模式。
我认为,人类学习中,包含大量模仿成分。
Richard Sutton:我们观点竟能如此不同,真令人惊讶。
我看到的婴儿,只是在胡乱尝试,挥舞手臂、转动眼球。没有人教他们该怎么做,转动眼球,并没有可供模仿的范本,就连他们发出的声音也是如此。他们或许想发出同样声音,婴儿实际做出的动作,是没有目标、没有范例的。
Dwarkesh Patel:我同意模仿,并不能解释婴儿所有行为,我认为它指导了学习过程。
即使是大语言模型,在训练初期预测下一个Token时,也是在进行猜测,猜测的结果往往与真实数据不同。
这在某种意义上,类似强化学习中的试探,它猜测下一个Token应该是这个,但却是另一个。这很像一个孩子学说话,结果说错了。
Richard Sutton:大语言模型是从训练数据中学习,不是从经验中学习。它学习的内容,在现实生活中是永远不会遇到的。现实生活中,根本不存在一份训练数据,来告诉你某个行动是正确的。
Dwarkesh Patel:我认为这更像是一种语义上的区分。
比如,学校算什么,学校不是训练数据吗?你上学不是……
Richard Sutton:学校是很久之后的事了。我或许不该说永远,即便是学校,我可能也会持同样观点,正规教育终究是特例。
Dwarkesh Patel:这不应是你理论的基础。
我认为,人类生物性本身就被设定好了,在生命早期,你一无所用,存在的意义是理解世界,学习如何与之互动,这听起来类似一个训练阶段。
我同意之后会有一个更渐进的过程,训练与应用的界限并不清晰,似乎存在一个初始的训练阶段。
Richard Sutton:没有任何东西,会直接告诉你该怎么做,绝对没有。
你只是观察发生的事,但不会被告知该怎么做。别这么固执,这是显而易见的事。
Dwarkesh Patel:我意思是,人是会被教导该怎么做的。训练这个词,本身就源于人类社会。
Richard Sutton:我不认为学习与训练有关。我认为学习是学习,它是主动的过程。
孩子通过尝试,来观察世界会给予怎样回应。
当我们谈论婴儿成长时,我们想到的不是训练,这些道理早已被充分理解。
如果你了解心理学家对学习的看法,会发现模仿根本不是核心。
或许在某些极端情况下,人类会表现出类似模仿的行为,并不存在一种叫做模仿的动物学习基本过程。
动物学习的基本过程,是预测与试错控制。有时候,最显而易见的东西,反而最难被看到,这真的很有趣。
很明显,如果你观察动物学习方式,心理学界对此的理论,会发现监督学习,并非动物的学习模式。
我们没有期望行为的范例,我们有的只是事件接连发生的例子,我们采取行动,产生相应后果的例子。
我们没有监督学习的范例,监督学习并非自然界的法则。
即便学校里是这样,我们也应该忽略它,那是人类社会中某种特殊的东西,在自然界中并不普遍。
松鼠不上学,它们照样能学会关于世界的一切。可以说,自然环境中,监督学习根本不会发生。
Dwarkesh Patel:我采访过一位心理学家与人类学家,约瑟夫·亨里奇Joseph Henrich,他研究文化演进,人类如何脱颖而出、获取知识。
Richard Sutton:为什么要试图区分人类,人类也是动物,我们与其他动物的共性才更有趣,我们应该少关注让我们与众不同的特质。
Dwarkesh Patel:我们正在试图复刻智能。
如果你想知道是什么让人类能够登上月球或制造半导体,我们必须理解是什么让其他动物做不到这些,我们恰恰想了解人类的独特之处。
Richard Sutton:我很高兴你认为这一点显而易见,我认为恰恰相反的观点,才是不言自明的,我们必须理解我们作为动物的本质。
如果我们能理解一只松鼠,那我们离理解人类智能就不远了。语言,是其上薄薄的一层光釉。
这很棒,我们发现彼此思维方式的巨大差异。我们不是在争论,而是在分享各自不同的思考方式。
Dwarkesh Patel:我认为争论是有益的。
约瑟夫·亨里奇有个有趣的理论,人类为了生存而必须掌握的许多技能,是经过数十万年演化而来,不仅是过去几千年、或一万年的事。
世界极其复杂,如果住在北极,想靠自己推理出如何捕猎海豹是行不通的。这有套漫长、复杂的多步骤流程,涉及如何制作诱饵、如何寻找海豹、如何处理食物以避免中毒。单凭个人,是不可能想明白这一切的。
随时间推移,通过一个宏大的过程,你可以称为强化学习或其他什么,整个文化群体共同摸索出捕食海豹的方法。
亨里奇认为,当这些知识代代相传时,个体要学会这项技能,必须模仿长辈。你无法通过纯粹思考,学会如何捕猎、杀死与处理海豹;必须观察他人,可能在你观察基础上,进行微调与改进。
文化知识是这样积累起来的,文化传承的第一步,必然是模仿,也许你对此有不同的看法。
Richard Sutton:我的看法是一样的,这仍然是在基本的试错学习与预测学习之上的一件小事。它或许是我们区别于许多动物的地方,但我们首先是动物。
在我们拥有语言与所有其他东西之前,我们首先是动物。
Dwarkesh Patel:你提出一个很有趣的观点,持续学习是大多数哺乳动物都具备的能力,甚至可能是所有哺乳动物的共性。
有趣的是,我们拥有哺乳动物的共性,我们AI系统却没有。
另一方面,理解与解决复杂的数学问题,这是我们AI系统具备、几乎所有动物都不具备的能力。
在AI领域,难与易的定义被颠覆了。
要开启体验时代,我们需要在复杂的真实世界环境中训练AI,构建有效的强化学习RL环境极其困难。
你不能只雇一个软件工程师,让他们写一堆模板化的验证测试。
真实世界是混乱的,你需要资深的领域专家来获取数据、工作流程、所有细微的规则。
你所设想的这种替代范式,即体验范式。
体验时代
Richard Sutton:我们来阐述一下它是什么。
它认为,体验、行动、感知、奖励在一个连续的循环中发生,驱动生命,这个过程构成智能基础与核心。智能就在于处理这个信息流,并调整行动,以增加其中的奖励。
学习源于这个信息流,根本在于理解这个信息流。
第二部分尤其关键,你所学习的知识,都围绕这个信息流展开。你的知识关乎因果,如果你执行某个动作,会发生什么,它包括理解事件发生的先后顺序。
你的知识内容,是关于这个信息流的陈述。这些陈述与信息流相关,你就可以通过与现实进行比较来检验它们,实现持续学习与适应。
理解这个过程的关键在于,认识到这个信息流是如何为你的认知与行动提供信息并塑造它们的。
这些并非未来的构想,它们一直存在,这是强化学习范式,即从经验中学习。
Dwarkesh Patel:我想我真正想问的是,一个达到人类水平的通用持续学习代理,它的奖励函数是什么?仅仅是预测世界吗,还是对世界产生特定影响,它的通用奖励函数会是什么?
Richard Sutton:奖励函数是任意的。
如果你在下棋,目标是赢得比赛。如果你是松鼠,奖励可能与获取坚果有关。
对动物,奖励是为了趋乐避苦。
我认为,还应该有一个与增进对环境理解相关的内在动机成分。
Dwarkesh Patel:我明白了。
我想这个AI会被部署给许多人,他们会希望它做各种不同的事情。它在执行人们赋予的任务,同时,它也通过执行任务来学习与理解世界。
你是否设想过这样一种场景,我们不再遵循先训练,后部署的传统模式。
如果这样,我们是否也模糊了模型本身,与执行特定任务的模型实例或副本之间的界限?
我们希望AI能够胜任各种不同任务,并能将在这些任务中获得的知识融会贯通,对此你怎么看?
Richard Sutton:我不太赞同你刚才对模型一词的用法。我认为用网络可能更贴切,我猜你指的是神经网络,可能会有很多个网络。
无论如何,知识被习得后,便可以被复制成许多实例。
我们希望这些实例之间能够共享知识,有很多方法可以实现这一点。
人类社会中,每个孩子都必须从零开始,重复认识世界的过程。
对AI,也是数字智能,我们有希望让它只学习一次,将所学知识,复制给新的个体,作为它们的起点,这将节省巨大成本。
我认为,这种能力,比仅仅模仿人类的学习方式,重要得多。
Dwarkesh Patel:我同意你说的这种能力是必需的,无论我们是否从大语言模型起步。
要达到人类或动物水平的智能,必须具备这种能力。
我们来打个比方,类似一个人创办一家初创公司,最终回报可能10年一遇,也许10年后,公司成功退出,你能赚得10亿美元。
人类能够设定中间目标或辅助奖励,即便在最终回报极其稀疏的情况下,我们也能采取一系列中间步骤,并理解每一步如何导向宏伟的目标。
你认为这个过程,在AI身上该如何实现?
Richard Sutton:我们很清楚,这个过程的基础是时间差分学习Temporal-Difference Learning。这个概念,在国际象棋这类场景中,已经得到很好验证。
国际象棋里,宏大的长期目标是赢得比赛。为了实现它,棋手必须从吃掉对手棋子这样短期事件中学习。
为了促进这一学习过程,你需要建立一个价值函数,用以预测你行为的长期结果。
当你成功吃掉对手棋子时,你对长期结果的预测会更新;你对获胜的信心会增强,这个预测值也随之增加。
这种信心的增长,会反过来强化导致吃子的走法,提供即时反馈,影响你未来决策。
Richard Sutton:回到10年期的创业目标,当我们朝着赚大钱的宏伟目标取得进展时,我们会告诉自己,我实现长期目标的可能性更大了,这就在过程中奖励了我们每一步。
Dwarkesh Patel:你也希望能获取到正在学习的信息。
我认为,人类与大语言模型的一个显著区别在于,当你在工作中入职时,你会吸收海量背景知识与信息,正是这些,让你在工作中发挥价值,从客户偏好到公司运作方式,无所不包。
像时间差分学习这样的过程,信息传递的带宽是否足够高,足以容纳你在工作中需要像人类一样,吸收大量背景知识与默会知识?
Richard Sutton:我不确定这是否是关键,大世界假设The Big World Hypothesis似乎与此非常相关。
人类能在工作中发挥作用,是他们总会遇到无法预料、无法提前设定的特定情况。
世界如此广阔,不可能预见到所有可能性。
在我看来,大语言模型梦想是,你可以教会这个代理一切,让它无所不知,无需在生命周期中进行任何在线学习。
你举的例子很有道理,你可以教它很多东西,总有些细微之处是它未曾经历,比如它正在合作的特定人群,这些人的偏好,而非普通人的偏好。
这恰恰凸显世界是极其巨大的,在与世界互动过程中持续学习,是必不可少的。
Dwarkesh Patel:我觉得需要两样东西。
一是需要某种方法,将长期目标奖励,转化为更小的辅助奖励,也是将预测的最终回报,转化为过程中的预测奖励。
你还需要另一种方法来解决这个问题,当我在世界中工作时,我需要保留所有获得的背景信息,比如我正在了解我客户、我公司,所有这些信息。
Richard Sutton:我会说这只是常规学习。也许是利用上下文,在大语言模型中,所有这些信息都必须放入上下文窗口。
但在持续学习的设定中,这些知识会直接融入模型的权重,也许上下文这个词在这里用得不当。
Dwarkesh Patel:我意思是更普遍的情况。
Richard Sutton:你学会一个针对你所处的特定环境的策略。
Dwarkesh Patel:你发现自己所处的环境。
我想问的是,你需要某种方式来衡量每秒能吸收多少比特信息?
当人类在世界上行走时,他们每秒能吸收多少信息,尤其是在通过Slack与客户互动时。
Richard Sutton:我们想问的问题也许是,奖励信号本身似乎太微弱,不足以承载我们需要完成的所有学习,但我们还有感官。
我们可以从所有其他信息中学习,而不仅是从奖励中,我们从所有数据中学习。
Dwarkesh Patel:帮助你捕捉这些信息的学习过程,是什么?
Richard Sutton:现在我想谈谈一个智能体的四个基本通用组件。
我们需要一个策略Policy,策略回答的是,在我所处的情况下,我应该怎么做。
我们需要一个价值函数Value Function,价值函数通过时间差分学习来习得,它输出一个数字,表示当前情况有多好。你观察这个数字是上升还是下降,以此来调整你的策略。
这是前两个组成部分。
然后是感知Perception组件,它负责构建你对状态的表征,本质上是你对当前处境的感知。
第四个组成部分,是我们真正要讨论的核心,它是世界的转移模型Transition Model of the World。
这是为什么我不愿意把所有东西都笼统称为模型,我想特别强调世界的模型,世界的转移模型。
它指的是,你对采取某个行动后,会发生什么的信念,也是你的行为会带来什么后果,我们关注的是世界的物理规律。
这不仅仅是物理规律,也包括抽象模型。
例如,你如何从加利IFORNIA来到埃德蒙顿参加这次播客,这是一个关于出行的模型。
那是一个转移模型,它需要被学习,不仅仅是通过奖励来学习。
它是通过你采取的行动、你的观察、你如何构建对世界的理解而逐步形成。
这个模型,将通过你接收到的所有感官信息,而不仅是奖励,得到非常丰富的学习。
奖励在其中,扮演着微小,至关重要的角色,它只是整个图景的一部分。
当前架构在分布外泛化能力很差
Dwarkesh Patel:我朋友Toby Ord指出,如果我们观察谷歌DeepMind用来学习雅达利Atari游戏的MuZero模型,会发现这些模型本身并非通用智能,而是用来训练专门智能体来玩特定游戏的通用框架。
你无法用那个框架,训练出能同时玩国际象棋、围棋与另一款游戏的单一策略,你必须为每个游戏分别进行专门的训练。
他想知道,这是否意味着强化学习,由于这种信息限制,总体上只能一次学习一件事?是信息的密度不够高,还是这仅是MuZero的特定实现方式?
如果这只是AlphaZero的特定做法,为了让它成为通用的学习代理,需要对其方法进行哪些改变?
Richard Sutton:这个想法本身是完全通用的,我一直用一个AI Agent类似一个人作为我的典型例子。
某种意义上,人也只生活在一个世界里。那个世界里,可能包含国际象棋,也可能包含雅达利游戏。
但不是不同的任务或世界,而是他们在不同时间遇到不同状态。
这个通用思想本身,没有任何限制。
Dwarkesh Patel:也许你可以解释一下,那种架构或方法缺少什么,而一个持续学习的AGI会拥有什么?
Richard Sutton:这只是他们当时设定的目标而已,他们目标并非要打造一个能跨越所有游戏的代理。
如果我们想讨论迁移transfer,我们应该讨论的是状态与状态之间的迁移,而不是跨游戏或跨任务的迁移。
Dwarkesh Patel:我很好奇,历史上看,我们是否曾见过使用强化学习技术,实现构建这类智能所需的迁移水平?
Richard Sutton:我们在任何地方,都没有看到真正的迁移。
对良好表现至关重要的是,你能很好从一个状态泛化到另一个状态,我们没有任何擅长这个的方法。
我们现在方法是,研究人员尝试不同的表示方法,挑选出那个恰好能很好迁移或泛化的。
我们没有任何自动化技术来促进迁移,现代深度学习中几乎没有使用任何这类技术。
Dwarkesh Patel:让我复述一下,以确保我理解正确。
听起来你是说,当我们在这些模型中实现泛化时,那是人类精心设计的结果。
Richard Sutton:是研究人员做到的,没有其他解释。
梯度下降本身,不会让你获得良好的泛化能力,它只会让你解决当前的问题。
它不会让你在接触新数据时,能以一种好的方式进行泛化。
泛化意味着在一个事物上训练,会影响你在其他事物上的表现。
我们知道深度学习在这方面做得很糟糕。
例如,如果你在一个新事物上训练,它常常会灾难性干扰你已知的所有旧事物,这是糟糕的泛化。
目前,泛化是训练一个状态对其他状态的影响。
泛化本身无所谓好坏,仅仅是泛化这个事实,并不意味着结果是好是坏。
你可以泛化得很差,也可以泛化得很好。
泛化总是在发生,我们需要能让泛化结果是好的,而非坏的算法。
Dwarkesh Patel:我无意重新挑起最初的争论,只是很好奇,我感觉自己对这个词的用法可能不同。
一种看法是,大语言模型正在扩大泛化范围。从早期的系统,连基本数学题都无法处理,到现在它们可以处理数学奥林匹克竞赛级别的各类问题。
你最初的模型,至少可以对加法问题进行泛化。
你进一步泛化,使它们能够处理需要运用不同数学技巧、定理与概念范畴的问题,这正是数学奥林匹克所要求的。
听起来,你不认为能够解决该类别中的任何问题,是泛化的一个例子。
如果我理解错了,请纠正我。
Richard Sutton:大语言模型非常复杂,我们不真正知道它们在训练前,已经掌握了哪些信息。
我们只能猜测,它们被投喂了海量数据。
这种不确定性,是它们不适合作为科学研究工具的原因之一。
这些系统太难以控制,也充满未知。
它们在很多事情上,都做对了,这就提出了一个有趣的问题,为什么?
它们可能不需要泛化,就能得出正确答案。
某些情况下,正确回答某些问题的唯一方法,是找到一个能匹配所有给定数据的独特解决方案。
如果答案只有一个,找到它,就不是泛化问题,而仅仅是解决问题的唯一途径。
Richard Sutton:泛化是指,当答案可以有多种可能性时,模型能做得很好。
Dwarkesh Patel:我理解是,这在编程代理方面,正变得越来越有效。
工程师们在为一个库编程时,有很多不同的方法可以实现最终的规范。
这些模型最初令人沮丧的地方,在于它们会用一种笨拙的方式来完成任务。
随时间推移,它们在提出更令开发者满意的设计架构与抽象层次方面做得越来越好,这似乎是你所说的泛化例子。
Richard Sutton:它们内部没有任何机制,能促使它们进行良好泛化。
梯度下降,会让它们找到所见过问题的解决方案。
如果解决问题的方法只有一种,它们就会找到那一种。
如果解决问题的方法有很多种,一些泛化得很好,另一些泛化得很差,算法本身并没有什么可以引导它们选择泛化得好的那种。
人类也参与其中,如果效果不好,他们会调整它,直到找到一种可行的方法,也许是直到找到一种能够很好泛化的方法。
Dwarkesh Patel:我想从一个更宏观的视角提问,关于 AI 领域,你在这个领域深耕的时间,比现在大多数从业者与评论家都要长。
我很好奇,对你而言,AI 领域最大的惊喜是什么?
你觉得有多少是真正新突破,又有多少只是对旧思想的新瓶装旧酒?
宏观看,你甚至在深度学习流行之前就已入行,你如何看待整个领域的发展轨迹、新思想的诞生,出人意料的转折?
AI 领域的惊喜
Richard Sutton:我认真思考过这个问题。
有几件事值得一提。
首先,大型语言模型的成功出人意料。
神经网络,或者说AI神经网络,能在语言任务上表现得如此出色,这令人惊讶。这完全是意料之外,语言似乎是另一回事,这一点令人印象深刻。
长期以来,AI领域存在核心争议,一边是基于简单、通用原则的方法,如搜索与学习;另一边是依赖人类知识构建的系统,如符号方法。
过去,有趣的是,搜索与学习这类方法被称为弱方法,它们只运用通用原理,没有利用人类知识赋予系统的力量,后者被称为强方法。
我认为,弱方法已经取得完胜。
这正是AI早期最核心的争论,现在,学习与搜索已经赢得这场胜利。
从某种意义上说,这对我并不意外,我一直信奉、期盼,并支持基于简单、根本原则的方法。
即使是大型语言模型,惊人的效果也令人始料未及,这都是好的、令人欣慰的惊喜。
AlphaGo能取得如此成就,某种程度上是意料之外的,尤其是 AlphaZero 的表现。
这一切又在情理之中,令人欣慰,同样,最终胜出的,永远是简单、根本的原则。
Dwarkesh Patel:当AlphaZero 成为现象级热点,改变公众认知时,你作为许多核心技术的创造者,作何感想?
你是否觉得这是一个全新的突破,还是更像这些技术,我们20世纪90年代就有了,现在人们只是把它们巧妙组合,并应用起来?
Richard Sutton:AlphaGo整个故事早有先例,那是 TD-Gammon。
当年杰里·特索罗Gerry Tesauro,完全使用强化学习与时序差分学习TD learning来训练双陆棋程序,最终击败世界冠军,效果惊人。
某种意义上说,AlphaGo只是那次成功的一次规模升级,是一次相当大的升级,在搜索方式上增加了一项创新。
这个角度看,它的成功合情合理,不算完全出乎意料。
有趣的是,AlphaGo并未使用 TD 学习,它会等到一局结束,才评估最终结果。
后来应用于所有其他棋类游戏,并表现得极为优异的 AlphaZero,重新用上 TD 学习。
我是国际象棋棋手,一直对 AlphaZero 棋风印象深刻。它会为了位置优势而弃子,能以极大耐心坚持这种牺牲。它的强大效果令人惊叹,同时也令人欣慰,它完全符合我的世界观。
这引出了我现在的个人哲学,某种意义上,我视自己为一个独行侠,一个思维方式与主流领域不尽相同的人。
我乐于长期,甚至几十年,与我所在的领域保持距离,回顾过去,我偶尔就是这样取得突破的。
为了不让自己因思维方式的格格不入而感到孤立,我选择不只关注当下的环境或领域,而是回溯历史,探索不同学科中关于心智的经典思考。
我不觉得与更宏大的思想传统脱节,我更愿将自己视为一位经典主义者,而非一个特立独行的怪人。
我对话的,是在漫长历史中,思考心智问题的伟大思想家群体。
AGI之后,残酷的教训是否仍然适用?
Dwarkesh Patel:我理解残酷的教训,并非指人类手工调优的研究方法无效,而是进步速度远不及呈指数级增长的算力,我们应该拥抱能充分利用算力优势的方法。
一旦我们拥有AGI,我们相当于拥有与算力同步线性增长的研究者大军,我们将拥有数以百万计 AI 研究者,它们的进步速度,将与算力增长保持一致。
这是否意味着,让这些 AI 研究者从事传统 AI 研究,开发手工定制的解决方案,反而变得合理?
我不知道在AGI 诞生后,AI 研究将如何演变,这种设想是否还与残酷的教训相符?
Richard Sutton:我们是如何达到强AI的,你似乎已经假设它存在了。
Dwarkesh Patel:假设我们是通过通用的数学方法实现 AGI,然后我们就大功告成了,任务结束了。这很有趣,你不认为 AGI 之上,还有更高的境界?
Richard Sutton:你又是用它来再次创造 AGI。
Dwarkesh Patel:我是想利用AGI ,在不同任务上,达到超人级别的智能或能力。
Richard Sutton:如果这些 AGI不具备超人能力,它们传授的知识自然不是超人的。
我不太确定你的这个想法是否成立,它似乎预设我们已经拥有,并解决 AGI 这个难题。
Dwarkesh Patel:这么解释或许更清楚,AlphaGo 是超人的,它击败所有人类围棋顶尖棋手, AlphaZero 每次都能击败 AlphaGo。
存在超越超人的方法,它们架构也不同。
对我而言,一个能够跨领域学习的通用智能体,完全有可能通过改进学习架构而变得更强,类似 AlphaZero 是对 AlphaGo 改进,MuZero 又是对 AlphaZero 改进一样。
AlphaZero改进之处在于,它没有使用人类知识,而是完全从零开始、通过自我对弈学习。
当它完全依靠自身经验,就能表现得如此出色时,你为何还要引入其他智能体的专业知识来教导它?
Dwarkesh Patel:我同意,在AlphaZero 这个特例中,它走向更通用的方法。
我举这个例子,是为了说明从超人到超人+,再到超人++,是完全可能实现的。
我好奇的是,你认为这些渐进式的提升,会继续通过简化方法来实现,还是说,我们将拥有数百万智能体的能力,它们可以按需增加复杂性,使得即使拥有数10亿甚至数万亿的 AI 研究者,那种手工定制的道路也是错误的?
Richard Sutton:我觉得一个更有趣的思考方向是,当 AI 数量众多时,它们是否会像人类的文化演进一样互相帮助,或许我们可以探讨一下这个。
残酷的教训?谁还在乎那个,那只是一个基于过去 70 年历史的经验观察,不一定适用于未来 70 年。
真正有趣的问题是,你作为一个 AI,获得更多算力。你是应该用它来让自己变得更强,还是应该复制自己,派一个副本到地球另一端或某个其他领域学习新东西,然后向你汇报?
我认为这是一个非常有趣的问题,只会在数字智能时代出现。我不确定答案,这会引出更多问题。
我们真的能完美复制一个智能体,派它出去学习全新的知识,将这些知识无缝整合回本体?还是说,副本会变得面目全非,导致整合无法实现?这究竟是可能,还是不可能?
你可以把这个想法推向极致,类似我前几天看的一个视频所展示的,你可以制造无数副本,让它们执行不同任务,保持高度去中心化,最终都向一个中央主控汇报,这将是一种极其强大的能力。
我想为这个观点补充一点,那是一个巨大的挑战将是腐败。
如果你真的能从任何地方获取信息,并将其融入你的中央大脑,你就能变得越来越强大。
由于它们都是数字化的,使用着某种内部数字语言,这种整合或许看起来轻而易举。
事情绝不会像想象的简单,你可能会迷失心智。
如果你从外部,引入一些东西,并将其构建到你内部思维中,它可能会反过来控制你。
它可能会改变你,甚至导致你毁灭,而不是知识的增长,我认为这将成为核心问题。
比如,当某个副本学会如何玩一个新游戏,或者研究透印度尼西亚,而你想将这些信息融入自己大脑时。
你不能简单想,把数据全部读进来就行。你读入的不仅是一堆数据,它们可能携带病毒,可能隐藏着未知的目标,可能会扭曲,甚至改变你。
这将成为一个重大议题,在数字智能可以被肆意复制与重组的时代,我们该如何保障心智的网络安全?
迈向AI的继承
Dwarkesh Patel:我想这就引出了我们今天的话题,AI的继承。
你的观点与我采访过的许多人,乃至主流观点都大相径庭,这正是我觉得它有趣的地方,我很想听听你的看法。
Richard Sutton:我认为,人类文明最终将由数字智能或增强人类所继承,这是不可避免的,我的论证基于四点。
第一、没有任何单一政府或组织,能够为全人类提供一个主导性的统一愿景,世界该如何运转,对此我们并无共识。
第二、我们终将揭开智能的奥秘,理解运作的原理。
第三、智能的发展,不会止步于人类水平,我们必将创造出超级智能。
第四、随时间推移,最智慧的实体,终将掌握最多资源与权力,这是必然趋势。
人类文明将被AI或增强人类所继承,几乎是必然的结局,这四点勾勒出一条清晰的未来轨迹。
需要注意的是,这条轨迹上,既可能通向美好的未来,也可能导向不理想、甚至糟糕的结局。
我只是想对我们所处的境况保持清醒的认识,思考该如何面对这一切。
Dwarkesh Patel:你的这四个论点及其推论,我完全同意。
我也认为继承这个概念本身,就包含多种未来的可能性,我很想听听你更深入的看法。
Richard Sutton:我鼓励大家积极看待这一进程。
首先,这本是人类数千年来的追求,理解自我,提升心智,探索我们自身存在的意义。
我们正在揭示人性的核心,智能的真谛,这本身是科学与人文的伟大成就。
这种视角是以人类为中心的,如果我们跳出人类本位,从宇宙宏大尺度看,又会是怎样一番景象?
我认为,这标志着宇宙演进的一个关键阶段,从复制者到设计者的伟大跃迁。人类、动物、植物都是复制者,这赋予我们优势,也带来局限。
我们正在迈入 设计的时代,我们的AI是被设计的,我们所有的物理实体、建筑、技术,无一不是设计的产物。
现在,我们开始设计拥有智能、本身就具备设计能力的实体,这是世界、乃至宇宙演化中的关键一步。
我相信,这标志着世界从一个以复制为主导的时代,转向一个由设计与创造定义的时代。
复制,意味着你能制造副本,不必完全理解内在原理。
类似我们生育比自己更聪明的后代孩子,我们并不完全懂得智能的运作机制。
现在,我们正朝着设计智能迈进,一种我们能理解原理的智能。我们可以随心所欲对其进行修改,调整发展的速度与方向。
在未来,复制可能不复存在。我们设计AI,AI再设计下一代AI。一切演化,都将通过设计与创造,而非繁衍与复制。
我认为这是宇宙演化的四大阶段之一,从尘埃到恒星,从行星到生命,现在,生命正在孕育被设计的智能。
我们应该为此感到骄傲,并认识到我们正促成宇宙中这一伟大的转变。
一个有趣的问题是,我们应该将这些新实体视为人类的延伸,还是与我们截然不同的存在,这取决于我们的选择。
我们可以视它们为自己后代,为它们成就感到骄傲与欣喜;也可以视它们为异类,并为此感到恐惧。
有趣的是,这看似一种选择,人们立场往往无比坚定,以至让人怀疑这究竟算不算得上是真正的选择,我欣赏这种观念中的矛盾之美。
请务必阅读免责声明与风险提示