
Nathan Lambert与Sebastian Raschka是机器学习研究员、工程师、教育家,Nathan是艾伦AI研究所的后期训练负责人,是《The RLHF Book》作者,Sebastian Raschka是从零构建LLM与从零构建推理模型的作者。
2026年2月1日,两人在Lex Fridman播客畅谈2026年AI新纪元。
当前AI呈现严重偏科,在特定任务上表现超人,在复杂系统面前显稚嫩;中国开源模型崛起,迫使美国重估创新主权,开源模型成为地缘战略筹码;当AI生成内容泛滥成灾,AI将成为一面映射人类本质的镜子,迫使我们回归线下社交、实体艺术等不可复制的真实体验。
本期长期主义,选择Nathan Lambert与Sebastian Raschka访谈纪要下篇,瓜哥AI新知发布,六合商业研选精校,分享给大家,Enjoy!
正文:
全文20,189字
预计阅读40分钟
Lex与AI研究员对谈AI江湖 下篇:中美竞争、大厂PK、开源、模型架构演进、训练、硅谷996
时间:2026年2月1日
来源:瓜哥AI新知
字数:20,189
Lex Fridman:我们来聊时间表,特别是关于AGI或ASI时间表。
首先作为起点,如果说目前大家没有就AGI与ASI定义达成共识,这样说公平吗?
Nathan Lambert:关于这一点,存在很多分歧。
我收到很多反对意见,大家一个共识是,它的定义应该是某种能复制数字经济中大多数工作的东西。比如,远程工作者是一个很合理的参照标准。
OpenAI的定义也与此相关,一种能完成大量具有经济价值任务的AI。我不特别喜欢这个定义,这是一个切入点。今天的语言模型强大,还无法替代远程工作者。
还有比远程工作难得多的任务,比如发现未曾预见的科学突破,这属于超级AI/ASI的范畴;或者整合所有病历,发现未知的疾病联系,甚至找出某种常用药物能治疗罕见癌症。这些通常被视为超级智能层面的问题,这些能力可以看作是自然的层级划分。
我的困扰在于,这一概念与AI对意义的追求,乃至宗教色彩紧密交织,你可以从完全不同的路径来解读它。
Lex Fridman:我甚至不确定远程工作者是否是个完美的定义,那到底意味着什么,仅是完美使用工具?
我很喜欢那份最初的《AI 2027》报告,他们更侧重代码能力与研究品味Research Taste,他们目标是创造超人程序员。
报告中设定了几个里程碑,超人程序员、超人AI研究员,超级智能AI研究员,最后是完全的ASI。
一旦超人程序员问世,其他一切将迅速跟进。那里的核心任务,是实现完全自主的代码编写,即进行研究所需的任何代码都能完全自动化。
从那时起,人类将与该系统合作进行AI研究,快速开发出能为你进行研究的系统,这是核心理念。
最初预测是2027或2028年,现在推迟了3~4年,平均预测在2031年左右。我的预测可能比2031年更晚,至少我们可以具体思考完全自动化编程的难度。
Nathan Lambert:我不同意其中部分假设与预测,他们很好定义了具体的里程碑,并讲述了有用的故事。
这是为什么《AI 2027》报告的影响力远超硅谷,故事讲的好,论证相当严谨。
我倾向认为AI的能力参差不齐,意味着它在某些方面极强,在某些方面极弱。
自动化软件工程方面,AI在传统机器学习系统与前端开发上表现出色,这是模型的强项。
分布式机器学习领域,模型表现得很糟糕,缺乏大规模分布式学习的训练数据。
这种现象不仅存在,我认为还会加剧,导致更复杂的权衡,这引出关于AI研究本身该如何运作的问题。
Lex Fridman:你意思是,这种能力的不均衡,我们很难实现完美的超人程序员,也是总会存在能力差距?
Nathan Lambert:我认为人们把模型在某些代码类型上的出色表现,误以为是整体能力的完备,这种不均衡会持续下去。人类富有创造力,会利用这些惊人的能力,来弥补模型的弱点,快速前进。
我一直认为,这将是一场博弈,人类赋能模型无法完成的任务,最优秀的AI研究员是能赋予模型这种超能力的人,这与我们目前的观察相符。
类似使用Claude一样,你可以在几小时内搭建一个漂亮的网站或完成数据分析。我认为它在这些方面不会无限改进,但会学习新的编程技能。
这与大型科技公司的现状、《AI 2027》报告有关。报告倾向奇点理论,我认为研究是混乱的、社会性的,很多存在于AI模型无法处理的数据中。
我们今天拥有的工具非常强大,科技巨头们为此投入数十亿美元,我们将获得比现在更好的ChatGPT,更好的Claude。
很难预测未来走向,这幅光明清晰的未来图景,是世界上最有权势的人投入巨资的原因。细微的差别在于,我们不知道更好的ChatGPT长什么样,它能自动化AI研究吗?
至少在这个时间范围内,我认为不能。科技巨头以千亿美元的速度投入,这远比我们获得一个能实现AI研究奇点的自动化AI研究员要快得多。
Lex Fridman:你的预测是什么,如果这是一个有用的里程碑,你认为还要10多年吗?我觉得不会那么久。
Nathan Lambert:在通用软件方面可能很快,在AI研究方面会更长。
Lex Fridman:我们为好玩,试想一个软件编写完全自动化的世界,你能想象那是什么样子吗?
Nathan Lambert:到2026年底,自动化生成的软件数量将会非常高。在某些领域,比如用强化学习训练模型,需要多组GPU相互通信,这仍然很难,尽管会比现在容易得多。
Lex Fridman:思考编程完全自动化,可以看作是编写的有用代码行数与参与人数之比。
很长一段时间内,编程需人类参与,相对代码量,参与人数会越来越少。
超级程序员的设想,是参与人数趋近于零。当只需要几百人,而不是几十万人时,那个世界会变成什么样?
Nathan Lambert:我认为软件工程,将更多转向系统设计与结果导向。
过去几周,这种转变尤为明显,1个月前大家还在说AI Agent不太行,这是Karpathy的一句名言,到现在,大家都在拥抱软件工业化的梗,即任何人都能随手创造软件。
我认为我们离那个阶段更近了,这需要明确的方向与对系统原理的理解,才能从语言模型中挖掘出最佳效果。
人们很难接受软件开发将发生的巨变程度,未来有多少人可以在完全不看代码的情况下完成工作。
Sebastian Raschka:这些系统最终是否会完全独立运作,我毫不怀疑,LLM最终解决编码问题,会类似计算器解决算术一样。
人类发明工具,你不再需要人工计算数字,只需输入即可,我认为编码也会如此。
问题是,未来是你只需要说建个网站,它就做一个很好的网站,你稍微调整一下?还是说AI会完全独立完成?人类还需要指令AI吗?还是AI会自己决定建网站?
Lex Fridman:拿建网站举例太简单了。HTML与网页对劣质代码非常宽容,代码写得烂,也能显示得像模像样。我更愿意思考安全关键型系统,比如让AI端到端生成管理物流或车队的系统。
Nathan Lambert:举个中间的例子,比如Slack或Microsoft Word。如果组织允许,AI可以很容易实现端到端的功能。比如你想在Slack里加个新标签页,AI能做得相当好。
Lex Fridman:这是个很好的例子。
我们离那一步还有多远,大概2026年?我真的不知道。
Nathan Lambert:我不确定实际的生产代码库有多糟糕,我认为几年内,很多人的角色将被推向更类似设计师与产品经理的位置。
你会有多个Agent为你尝试方案,可能花1~2天实现一个功能或修复一个Bug。
你会有相应的仪表板,Slack本身是一个很好的交互界面,Agent与你交流,你提供反馈。
在连贯的设计风格或决定下一步添加什么,比如创建一个可接受的Logo这方面,对模型非常困难。
Lex Fridman:我认识很多程序员,他们普遍持怀疑态度。
他们认为向复杂系统,如Chrome浏览器添加功能,涉及极高的复杂性。
比如我想把标签页,从顶部移到左侧,这绝非易事,我认为2027年还实现不了。
Nathan Lambert:2026年,有个云服务发布的测试项目,给它一段软件,让它完全重构。它几乎可以在沙箱环境中,仅根据参数从头开始重建Slack。
Lex Fridman:听起来不错,关键在于那个几乎。
Nathan Lambert:小型初创公司可能会处于优势地位,它们会想,我们要拥抱这个未来,不必背负旧系统的臃肿与复杂性。
Sebastian Raschka:这回到你提到的怀疑论者问题,我认为这并非LLM做不到某事,不希望以这种方式工作。
Lex Fridman:不幸的是,这部分原因是人类的技能问题。我们要对自己诚实,很多时候是规格说明不足。
编程类似人际关系中的沟通,你不能假设AI能读懂你的心思。这是规格驱动设计的重要性,你必须用自然语言清晰说明你想要什么。
Nathan Lambert:如果你与实验室里的人交流,你会发现他们在训练与生产代码中,广泛使用这些工具。
比如Claude是用Claude构建的,Anthropic CEO Dario曾谈到Claude有多少代码是由它自己编写的,这些人在能力上处于领先地位。
他们在推理上的投入,可能是我们的10~100倍。我们用的是每月100或200美元的低价套餐,他们是火力全开。
看看这种进步速度,1年前我们没有Claude这样的工具,没有真正的推理模型。这类似今天的我们,与能完全驾驭这些模型间的差距。
还有很多唾手可得的改进空间,目前的失败模式很愚蠢,比如Claude可能会反复尝试使用我没安装的命令行指令14次,直到我把运行结果发给它。从建模角度看,这很容易解决。
Lex Fridman:我同意,我越来越乐观,这是人的技能问题。
Anthropic在引领如何最好的利用模型进行编程,很多程序员处于边缘地带,他们没有指南来学习如何使用这些工具。大家都在摸索,这可能成本高昂。
Nathan Lambert:入门成本可能高达每月2千美元,这只有科技公司与富人才能承担。
Lex Fridman:也是,这或许值得。
我意思是,如果最终能得到一个可用的软件系统,这一切可能是值得的。
很有趣的是,我们讨论从时间线开始,聊到AGI,最后又回到更实际、更有用的东西上。
关于实现AGI与超级AI的时间线,有什么具体、有趣、有用、深刻的观点吗?
Nathan Lambert:目前有一些有趣的投资在进行,很多人尝试在真实的科学领域,利用可验证奖励进行强化学习。
有些初创公司拿到数亿美元融资,建立了湿实验室Wet Labs,让语言模型提出假设,在现实世界中进行测试。
很难判断这些尝试,究竟是处于真正的早期阶段,还是仅稍领先于发展曲线。它们可能抢占先机而成功,也可能早了几年成为先烈。
利用这股势头,推动其他科学发展的登月计划具有变革意义。
想象一下,由解决复杂问题的初创公司驱动,在各个科学领域复刻AlphaFold时刻。我相信这样的公司存在,比如Harmonic可能是之一,他们专注将语言模型与Lean语言结合进行数学研究。最近的一个播客,甚至专门讨论过这个话题。
很难说向这些模型投入1亿美元,究竟会产出什么。大多数尝试可能会失败,少数成功者可能会带来重大突破,这种体验将与当前使用ChatGPT或Claude等软件有着根本的区别。这些工具可能对数学博士极其有益,甚至能将他们效率提高100倍。
Sebastian Raschka:我同意,我认为这将在许多领域发生,尤其是在金融、法律、制药等资源雄厚的行业。
话说回来,这真的算AGI吗,我们是在把它们再次专业化。
这引出一个问题,这与过去我们拥有的专用算法有什么本质区别吗,我觉得这只是同一类事物的更复杂版本罢了。
我不知道,是否存在一个特定的阈值,跨过我们就能称之为AGI?
我觉得真正酷的地方在于,我们现在拥有可以进行专业化定制的基础模型,这本身是一个突破。
目前我们可能还没完全达到那个阶段,首先是成本太高,ChatGPT不会轻易放弃通用的定制能力。
我认为一旦技术成熟,这会成为一种商业模式。OpenAI可能会对美国银行说,我们愿意花1亿美元为你们定制一个模型,这将带来巨大的经济增值。
另一件事关乎企业的竞争优势,现在差异化因素是什么,如果大家都用同一个LLM,都用ChatGPT,最终大家做的东西都一样,只能同步前进。
公司通常希望拥有竞争优势,我认为别无选择,企业只能利用私有数据进行实验,打造专业化模型,这将是非常有趣的趋势。
Nathan Lambert:考虑到进步的速度,变革在发生。我认为纠结于AGI或超级AI的具体阈值,没有太大意义。
Lex Fridman:也许真正问题在于,这让我们联想到远程工作,我们何时能看到经济影响出现重大、显而易见的飞跃,目前LLM没有带来明显的经济效应。
这与AGI或超级AI无关,是一个实实在在的问题,我们何时能看到GDP级别的增长?
Nathan Lambert:GDP是由什么组成,很大一部分是金融服务,我很难具体想象GDP的增长点在哪。
我想说的是,当你不必再亲自编写或检查代码时,软件开发价值就体现出来了。类似云服务,能让你轻松成为一个小企业一样,它本质上可以为你建立网站、银行账户、电子邮件系统等。
你只需要表达你想向世界推广什么,这不仅是一个企业级市场。很难,也不知道如何引导人们尝试,如果ChatGPT能做到这一点,人们自然会用它。
Lex Fridman:我认为这归结为一个科学问题,解决工具使用Tool Use到底有多难。
你提到的很多应用,比如远程工作类的场景,核心都是关于工具使用。
这就好比计算机使用Computer Use,你有一个LLM,一个自主系统,它能走出去在现实世界中执行任务,只有1%的出错率。
Nathan Lambert:计算机使用,说明实验室关注点与实际进展的落差。
2025年,我们看到多个演示,比如Claude可以操作你的电脑,或者OpenAI的相关产品,体验都很糟糕,他们在向这方面大量投入资金。
我认为这比单纯通过API在后台调用要难得多,一些必须为模型设置特定的环境才能运行。它们不是在你的本地MacBook上运行,是独立与Google、Amazon、Slack交互,交互方式与人类截然不同,这可能存在结构性的障碍。
Sebastian Raschka:在指令规范方面,任意任务都存在问题。
你需要明确你希望LLM做什么,在什么环境下做,如何指定这些,你可以说出最终目标,如果模型无法直接解决,通常你会要求它提供文本,然后澄清、分解步骤。
在类似帮我预订旅行这样场景下,你如何将信息输入系统,你可以说你搞错了我的信用卡信息,在此之前,作为一个用户,你如何在模型开始尝试之前就指导它,我认为人机交互界面Interface真的很难做。
Lex Fridman:它需要学习大量关于你的具体信息,既包括持续学习普遍存在的错误,也包括你个人容易犯的错误。
Nathan Lambert:目前所有AI接口的设计思路,都是向人类寻求输入。例如我们经常讨论的Claude,它会针对问题征求反馈。
如果它觉得你对计划或意图的描述不够充分,就会开始提出澄清性问题,比如你是不是更想要什么?
我们还讨论了跨对话的持久记忆功能,起初它的实现方式有点怪,甚至会在聊天中突然提我狗的名字。我当时想,你不需要这么刻意套近乎,我真的不在乎。
新出现的功能,比如ChatGPT的Pulse,会提供精选内容片段,并附带链接,供进一步探索。
还有关于让语言模型主动向用户提问的讨论,当模型了解特定背景时,比如在看医生前,它主动问,你感觉怎么样,这可能会很有效。
这种能力,涉足人类情感上高度敏感的领域,预示重大的社会变革即将来临,还有实验在让模型变得更主动。
Sebastian Raschka:我用过那个功能,我总觉得有点不好意思,它每天都在运行,我很少查看。
感觉这类似,你知道吗,大量的计算资源与资金被消耗在一个我根本不看的东西上。
Nathan Lambert:世界上闲置的计算资源多得是,不用太担心这个。
Lex Fridman:你认为我们需要新的想法吗?
通往AGI的道路,无论AGI是什么,或者我们如何定义它,能否解决更普遍的计算机使用问题,生物学、化学、物理学难题,类似Dario Amodei定义的强大的AI。
你认为是否需要全新的、非LLM、非强化学习RL的想法,那会是什么样的,我们现在稍微进入一点哲学领域。
Nathan Lambert:如果是指发生类似奇点的事,我会说是。新想法可能出现在架构或训练算法上,触及深度学习的基本原理。
这些很难预测,但我认为,即使没有突破性进展,我们也能走得很远。
例如,我们可能会得到完善的软件解决方案,如果没有进一步创新,它可能仅限于软件层面,无法解决更广泛的计算机使用问题。
我认为会有很多进展,如果把时间轴拉长到未来30年,肯定会出现一些看起来类似重大科学创新的想法,开启AI的下一章。
至于这会发生在1年后,还是15年后,我不知道。
Lex Fridman:我在想Rich Sutton苦涩的教训The Bitter Lesson,在未来100年是否适用。
Nathan Lambert:那会是什么样?
如果缩放定律Scaling Laws是深度学习的基础,我认为苦涩的教训将永远适用,计算资源只会越来越丰富。
在计算资源充裕的情况下,拥有更陡峭缩放曲线或更好起点的模型将会胜出。
想象一张性能与算力的二维图表,即使算力无限,能从同等算力中获得100倍收益的模型,依然会是赢家。
Lex Fridman:也许未来会出现字面意义上、绕地球运行的超级计算机集群。
Nathan Lambert:问题在于散热。
在太空,可以获得充足的太阳辐射,没有空气来辅助散热,那里有巨大的空间来放置集群,也有大量的太阳能。只要有足够的工程意愿解决散热挑战,这是完全可能的。
Lex Fridman:绝对是有可能的,问题在于,我们2026年是否会遇到瓶颈,我指的不是系统能力本身,是这些能力对人类文明的实际意义。
在编程方面,它能构建漂亮的网站,提供出色的自动补全,很好理解代码库,还能辅助调试,但充其量它只是一个非常优秀的助手。它能帮助数学家做研究,帮你购物,或者作为教育工具,但这更类似是微软大眼夹Clippy的超级升级版。
与此同时,计算机使用问题,最终被证明极难解决。
我试图描绘一种悲观的图景,鉴于训练与运行这些系统从预训练到推理的高昂成本,如果它不能产生真正巨大的经济影响,会发生什么,这种可能性有多大?
Nathan Lambert:审视这些模型时,会发现仍有巨大的改进空间,训练模型,打磨这种技艺,需要很长时间。
以我们现有的思路,要达到任何基准或性能的饱和状态,还需要数年时间。
它可能会服务于非常细分的领域,也许ChatGPT的8亿普通用户从中获益有限,通过在特定方面做得更出色,它将能够服务好不同的专业群体。
Lex Fridman:我觉得现在大家都在追求一个对所有人都有用的通用系统,如果不朝这个方向发展,技术会停滞不前。
Nathan Lambert:我认为大一统模型的梦想,在破灭。如你提到的专业化模型,多模态领域也往往是各行其是,比如视频生成是独立的。
Lex Fridman:说梦想在破灭,可是个大胆的论断,我不确定是否真的如此。
如果你问Francis Lab或者其他类似机构的人,他们肯定还在全力追求这个目标
Sebastian Raschka:我认为他们还在争分夺秒发布下一个模型,新模型肯定会比前一个好得多。好的多是相对的,进步是不可否认的,我看不到他们有放慢脚步的迹象。
我认为未来的进步,不仅来自于扩大模型规模,还在于解决技术债务。过去做法是,我们直接换个更好的模型,再换个更好的。
现在人们开始意识到,让我们同时改进模型周围的一切配套设施,比如上下文处理与推理扩展Inference Scaling的工程化。
大型实验室仍会继续推进模型规模,现在小型实验室也将迎头赶上,他们在扩充人才。LLM类似一个良性循环,它们提高人们生产力,产生一种放大效应。
与其说是范式转变,不如说是放大效应。我不认为范式真的变了,是一切都在被不断放大,这种趋势还会持续很长时间。
Nathan Lambert:我觉得我说梦想在破灭,取决于你如何定义它的作用。
比如,Claude Code是个通用模型,可以做很多事,并非无所不能,它在很大程度上依赖于集成与其他工具。
我敢打赌,Claude Code处理你的电子邮件能做得相当不错,最难的部分是如何将信息输入给它,授权它发送邮件。
这又回到一个模型统治一切的理念,类似云端有一个比所有人都聪明的实体,在打理你的整个数字生活。
相信Claude Code会变成是一种有趣的思维跳跃,在某些方面有这种可能性。我认为,目前行业内的风向,已经有点不同了。
Sebastian Raschka:我认为,作为普通用户,我们接下来会立即感受到的变化,可能与一些琐碎的事有关,比如制作图表。
目前,LLM在制作图表方面表现很差。这是我们使用的是廉价模型,后台分配的推理算力太少?也许,有些模型已经可以制作出更好的图表,如果你今天要求它画一个XYZ的流程图,大多数时候结果都很糟糕。
对人类,这几乎是一项非常简单的任务,有时画图,甚至比写字更容易。
Nathan Lambert:多模态理解,感觉是一个奇怪的、尚未被妥善解决的难题。
Lex Fridman:我认为我们忽略了一个显而易见,未被充分认知的巨大价值,让全人类都能获取所有人类知识。
我觉得谷歌搜索与LLM间存在本质区别,我感觉可以问LLM任何问题并得到答案,它的幻觉在不断减少。
这意味着我可以利用它来理解我的生活,规划职业轨迹,解决身边的问题,学习人类历史上的任何知识。
我觉得很少有人真正谈论这一点,大家很快习以为常,觉得这太棒了,所以我才用它。
这种影响是跨越时间的,不仅是在美国,是在全世界。
想象一下,全世界的孩子们都能接触到这些思想,这种跨越时间的影响力,我们还在谈论GDP吗?
这不会是GDP的突飞猛进,是我们通向火星的阶梯,是我们构建未来的基石。这是为什么会诞生100万类似OpenAI这样的新公司与各种创新。这是一种润物细无声的力量,渗透进万事万物,这是人类知识的力量。
Sebastian Raschka:我同意你的观点。某种意义上,它让知识变得触手可及。我也认为,这取决于具体的主题。
对数学之类学科,你可以问它问题,得到解答。
如果你想从头开始系统学习一个主题,如我们之前讨论的,最佳方法是阅读优秀的数学教科书,有人已经以线性的方式铺陈好知识体系,这是被证明有效的学习策略。
从零开始接触信息密集型的文本来吸收知识,是完全合理的,你可以利用LLM来生成无数的练习题。
当你在某个领域遇到瓶颈,或者有不确定的地方,你可以让它生成例题。做完后,如果有疑问,或者需要更多背景知识,再让它生成解释。我
认为它不会提供教科书之外的新东西,它只是换了一种打包方式。
在某些更具时效性的场景下,LLM的价值无可替代,除了真人实时服务外,没有更好的选择。
例如,你要去迪士尼乐园,想弄清楚买哪种票、去哪个园区、什么时间去、费用多少等。关于这些,没有教科书,没有现成的信息密集型资源,只有零散的互联网信息。
这时LLM非常有价值,你直接告诉它约束条件,我计划这几天去,想去这几个地方,请帮我规划流程、时间与预算。
这是一个完全定制化、即时生成的方案。这是从稀疏的互联网信息中提取价值,在没有现成答案的情况下,几乎是从零开始创建一个解决方案。
Lex Fridman:即使现成的答案存在,通常充斥着广告垃圾。
说到迪士尼世界,简直没法看。你随便去世界上任何一个城市,问十大必去景点,LLM的回答,肯定比任何其他搜索方式都要好。
Nathan Lambert:目前它们得到巨额补贴,广告迟早会来。
Lex Fridman:我希望在那种情境下,广告与非广告内容,能有非常明确的界限。
Sebastian Raschka:我几年前提到过这个例子,比如你在找一双新跑鞋,耐克如果是第一个跳出来的推荐,这仅是巧合吗,也许是,也许不是。
我认为法律对此有明确规定,必须保持透明。这是每个人都担心的,潜移默化的信息植入。
这引出了告的话题,我认为这才是重点。
OpenAI曾被传试图在2025年推出广告业务,目前还没找到其他盈利方式,类似在对话中插入广告位。
他们很难做到,一旦有不带广告的替代方案,用户就会蜂拥而去。现在竞争如此激烈,各家都在烧钱抢用户。
Nathan Lambert:我不怎么用Instagram,我理解商家付费给平台,以精准找到受众的吸引力,这是Instagram广告的理想情况。
很多情况下,广告会带来非常糟糕的激励机制。我认为AI的力量,应该与这种积极的愿景结合,我是一个个体户,我想制作世界上最好的牛排刀,卖给需要它的人。
如果AI能优化这种匹配,那对世界,尤其是数字基础设施是件好事,现代网络是建立在广告之上的,这并不意味着让人沉迷于信息流是件好事。
我认为即使是OpenAI也会说,他们想找到一种不依赖广告就能盈利,同时赋予用户自主权的方法。
我个人认为,谷歌在这方面可能更有优势,他们已经拥有广告资源,知道如何将Gemini中的用户需求,转化为有用的广告。有人会找到解决办法,不一定是2026年,会有相关的实验。
Sebastian Raschka:我认为目前阻碍公司迈出这一步的原因,是竞争对手还没动手,这更多关乎声誉。
人们担心一旦推出广告,会破坏声誉、流失用户,肯定会成为头条负面新闻。
Nathan Lambert:除非广告体验做得极好,最初的版本肯定不会好,这是一个未解的难题。
Sebastian Raschka:第一版很可能类似XX的时间线,中间偶尔插一个推广帖子,写着小小的推广字样,现在的问题是谁会先迈出这一步。
Nathan Lambert:广告的价值在于,通过庞大的用户群赚取巨额利润,将资金投入研发,构建更好的模型。
这是为什么YouTube能主导市场,为什么Netflix害怕YouTube。YouTube既有广告,也从我与其他人那里每月赚取会员费。
他们在视频领域,建立了强大的护城河,这是广告带来的飞轮效应。
对初创公司,启动这个飞轮是可怕的,这是一项长期投资,目前的竞争压力巨大。
Lex Fridman:你认为2026年,商业方面会有什么惊人的大动作,比如谷歌或苹果收购Anthropic之类?
Nathan Lambert:Anthropic CEO Dario永远不会卖,我们已经开始看到一些整合。
比如Groq估值很高,Scale AI价值近300亿美元,还有无数类似的交易。
这些交易的结构,对硅谷生态系统不利,它们通常是许可协议Licensing Deal,并非全员收购,无法让普通员工受益股票兑现,这是硅谷文化需要解决的一个大问题。
初创公司生态系统是生命线,以往如果你加入一家初创公司,即使它不算特别成功,被低价收购后,你也通常能拿到股权回报。这几年的许可协议,往往只是为挖走顶尖人才Acqui-hire。
据传Groq与英伟达的交易,对员工会更有利一些,这是一种规避反垄断审查的手段,我认为这种整合趋势将继续。
我与许多业内人士都预期,整合会发生得更早,似乎有些事已经开始转变,同时你也能看到公司仍在募集巨额资金。
这其中的原因你可能不喜欢,是为了生存。2026年可能是喜忧参半,整合的压力已经开始显现。
Lex Fridman:你认为我们会看到什么样的惊喜,你说Anthropic永不出售,Groq可是个大巨头。
Nathan Lambert:有很多初创公司估值极高,可能会有百亿美元级别的收购,这对一家成立仅1年的公司,是天文数字。
比如Manus AI,这家总部位于新加坡、被Meta收购的公司,成立仅8个月,就以20亿美元价格退出。我认为还会有其他几十亿美元级别的收购,甚至涉及盈利公司,坊间传言苹果会收购一些。
我认为AI领域,面临巨大的压力与流动性需求。大公司急于看到成果,我猜一次大的收购,能为人们腾出空间讲述下一个资本故事。
Lex Fridman:说到代码,有猜测,有人会收购Cursor,我们一直在谈论它。
Nathan Lambert:凭借海量的用户数据,他们占据极佳的战略高地。
我们之前聊过持续学习的概念,在他们博客中,有两句话尤为引人注目,是关于他们全新的Composer模型。
这个模型是从中国一个大型混合专家MoE模型微调而来,这一点显而易见,如果你问一些八卦,或者观察它偶尔蹦出的中文回复,就会发现端倪,美国本土模型绝不会这么做。
他们在博客中写道,他们根据用户在真实世界中的使用反馈,每90分钟,就会更新一次模型权重。
这简直是目前最接近真实世界强化学习RL的实践案例,这一切都写在博客里,太酷了。
Lex Fridman:我经常用Composer,它最大优势是快。
Nathan Lambert:大家都这么说,我得找机会试试。
Lex Fridman:会有IPO吗,你怎么看Anthropic、OpenAI或者xAI?
Nathan Lambert:融资对他们太容易了,根本不需要上市。只要一级市场钱好拿,他们就不会触碰IPO,公开市场意味着巨大的业绩压力。
反观中国,生态截然不同。Minimax与01.AI都在准备IPO文件,看看中国市场如何反应会很有趣。我猜它们会类似在美国一样受到追捧,哪怕它们还在巨额亏损的现实之下。
我倒是希望更多美国大型AI初创公司能上市,这样我们能窥见资金流向,获得更多洞察。也能给大众投资的机会,它们是这个时代最强大的公司之一。
现在,美国许多大型初创公司推迟上市已成一种传统。我们在等Stripe,Databricks肯定还没动静,还在搞G轮之类的融资。这种市场均衡状态很奇怪,我希望能看到这些公司上市,以更成熟的企业形态发展。
Lex Fridman:你认为10年后,前沿模型公司,Anthropic、OpenAI,还会在吗?
Nathan Lambert:我绝对不认为是赢家通吃,除非某家公司真的发现一个惊天的算法秘密,形成无法逾越的飞轮效应。
目前现状是,大家发展路径太相似了。谷歌与OpenAI产品几乎重叠,Anthropic更专注,聊起来,你会发现他们解决的问题大同小异。
我认为蛋糕在做大,供应商会变得分散,大家都能从中分一杯羹。
Lex Fridman:我不想看衰它们,OpenAI与Anthropic主要是LLM服务商。
类似谷歌与xAI,还有其他业务支撑。如果AI变得更加商品化,纯粹提供LLM的公司,可能会面临倒闭的风险。
Sebastian Raschka:我认为拥有庞大用户群的公司将占据优势,他们会直接转型。
如果他们能找到类似Anthropic的切入点,本来没打算主攻代码,结果发现那是很好的利基市场,然后深耕,我也能看到类似的路径。
假设谷歌真的垄断通用聊天机器人市场,OpenAI可能会转向某些垂直细分领域,他们在可预见的未来,用户基数太大,不可能直接消失。
Lex Fridman:我觉得谷歌随时准备着说一句,看我要放大招了Hold my beer,然后全面进入AI模式。
Nathan Lambert:关键在于公司能否撑起现在的估值,某种程度上,AI公司会被视为下一代的AWS、Azure、GCP,在一个领域里厮杀,都是非常成功的企业。
API市场可能利润极薄,他们必须向上下游扩展到产品与硬件。他们手握巨资,甚至可以自建发电厂与数据中心,这在当下是持久的护城河。
也可能,API对开发者极具价值、灵活,最终成为类似AWS的基础设施。
AWS与Azure自己也会提供这些API,在一个API市场里,容纳5~6家巨头竞争太难了,这也许是有人会被挤出局的原因。
Lex Fridman:你提到Llama已死,Meta还有胜算吗?
Nathan Lambert:目前没人知道,他们动作很快。
比如刚与Black Forest Labs,一家类似Midjourney的图像生成公司签了许可协议。
在面向消费者的AI产品方面,现在下定论,太早。
我认为扎克伯格身边有一群非常优秀、充满激情的人,好戏还在后头。
Llama不太一样,它是这个组织最集中的体现。我不认为Llama还能维持以前的支持力度,它曾是一个非常成功的品牌,或许他们还能在开放生态中占有一席之地,或者将Llama品牌延续到其他产品上,大家已经认准了这个牌子。
Lex Fridman:你认为会有Llama 5吗?
Sebastian Raschka:即便有,不会是开源权重的了,这很有趣。
简单总结一下,Llama曾是开创性的开源模型,Llama 1、2、3都备受喜爱。
我推测,Meta高层看到它在社区如此受欢迎,一度非常兴奋。问题在于,如何利用开源制造更大声势,感觉类似是被强行推进,他们开发巨大的Llama 4,只为在基准测试中刷榜。
我不认为Llama初衷是打败ChatGPT,而是提供一个人们可以使用、信任、修改、理解的模型,包括小参数模型。它们不一定非要是最强的模型。
现在情况是,模型在基准测试中表现虚高,我认为他们针对偏好进行特定训练,有点类似过拟合,只为强行争第一。
同时,他们没有制造出人们真正能用的小型模型,没人跑得动庞然大物。这陷入一种奇怪的境地,仅是人们对推动前沿头条新闻过于狂热。
Lex Fridman:过于侧重基准测试Benchmarks。
Nathan Lambert:我认为它在政治压力、内部斗争、目标错位中崩溃,研究人员想做最好的模型,管理者只想证明业绩。有很多关于糟糕技术决策的传言,似乎情况恶化,导致体系崩塌。
Lex Fridman:我们应该非常感谢扎克伯格,我认为开源很重要,这一指令来自他本人。如果事实如此,也许会有Llama 5,他们会吸取刷榜的教训,立志成为开源界的GPT,提供卓越的开源库。
Nathan Lambert:坊间传言,扎克伯格与Scale AI创始人Alexandr Wang间存在争论。Alexandr非常聪明,他更倾向反对开源。考虑到扎克伯格引进Alexandr,是为获得新的AI领导力,这种情况发生的可能性较小。
如果开源与否,不再是模型的决定性特征,我不认为这会成为扎克伯格与Alexandr间的争论焦点。
这两位都是聪明人,这事让人摸不着头脑,扎克伯格在2024年7月写了一篇为开源AI辩护的绝佳博文,结果到2025年7月,变成我们在重新评估与开源的关系,这有点反复无常。
Sebastian Raschka:我觉得大家可能太严厉了,这导致了现在的局面。
作为开源社区,即便模型不如预期,我们批评得太狠了。
这很不幸,公司希望得到好评,结果招来负面报道,这对公司影响很坏。
这看起来类似是某种报复性反应,我们试图做好事给你们开源模型,你们这么消极,甚至攻击公司,那行,我们也许会改变主意。
Lex Fridman:这是X上的舆论动态,可能将社区带入歧途的地方。感觉很随机,大家爱憎分明。
Grok 4.1与Grok Code Fast 1也有类似情况,没人在公开场合大肆赞扬,很多人都在用。你看Reddit与X上的编程社区,没给它好脸色,私下里都在用,Llama也是如此。
我不理解这种正面或负面的炒作逻辑。
Nathan Lambert:2025年一个核心议题,是美国在大型模型上的差距,即Llama差距,特指中国开源大模型的崛起。过去5个月我都在研究这个问题,试图通过政策工作,推动美国加大这方面的投资。
Lex Fridman:讲讲Atom的故事。
Nathan Lambert:Atom项目,我最初叫它美国版DeepSeek计划,这名字在华盛顿不太讨喜。
项目的核心是,我如何能利用我的职业生涯,做出最有影响力的贡献。
现状是,中国开源模型在积蓄巨大力量,美国企业对中国模型持谨慎态度,急需基于这些模型开发的替代方案。
Lex Fridman:Atom项目,全称美国真正开放模型 American Truly Open Models,是一项基于美国的倡议,旨在构建与托管高质量、真正的开源AI模型及基础设施,明确目标是与中国快速发展的开源AI生态系统竞争,并实现赶超。
Nathan Lambert:我用一两句话来概括我的核心观点,第一,开放模型Open Models是AI研究的引擎,它是所有人起步的基础,掌握这些模型至关重要。第二,美国必须构建最顶尖的模型,确保最前沿的研究留在美国,这样美国公司才能继续从AI发源地这一地位中获益。
如果我们不加大对开源模型的投资,我们互联网上将充斥来自中国公司的模型。这些公司在通过这种方式,在美国、中国,乃至全球范围内积累影响力。
我认为美国在AI上的投入,应该大得多。开发一款比闭源实验室,如OpenAI、Google最前沿技术仅落后半代、甚至一代的开源模型,成本大约是1亿美元。这笔资金对科技巨头微不足道,对开源社区是一笔巨款。
我们需要集结志同道合的力量,无论是技术全栈的从业者,还是政策制定者,我都感受到这种支持。
Lex Fridman:政府层面有实际支持吗?
Nathan Lambert:政府内部还没人公开签署文件,我知道在拜登与特朗普政府时期,从事AI政策工作的人,都非常支持在美国推广开源模型。
一个开端是,AI2艾伦AI研究所近期从美国国家科学基金会NSF获得1亿美元的4年期拨款,这是NSF迄今为止,在计算机科学领域颁发的最大单笔拨款,专门用于推进这项倡议。
当多个组织同时构建模型时,进步速度最快,大家可以交叉验证想法,促进生态系统的繁荣。
如果世界上只有Meta的Llama,远远不够,它随时可能因为公司决策而停止更新。同样,AI2也不能是唯一参与者。
这项工作需要大量时间与各方沟通,包括政策制定者。我知道英伟达对此非常热情,黄仁勋曾特别强调此事的紧迫性。
英伟达在2025年动作频频,Nemotron模型受到广泛关注。他们甚至打破常规,开始发布与开源模型相关的数据,这对英伟达这种规模的公司并不常见,这些都是明显的进步迹象。
我们还看到Reflection AI宣布20亿美元的融资,将用于构建美国的开源模型。他们公告不仅是一条推文,更类似是一篇宣言,我认为这种文化潮流在转变。
2025年7月,我们看到4~5款水平堪比DeepSeek的中国开源大模型涌现。那一刻我意识到,如果不全力以赴投入宣传与推动,没有其他人会来做这件事。
这需要众人的共同努力,并不是说Atom等项目没有帮助,是类似我这样的人,必须努力传播信息,推动生态发展。
Lex Fridman:我非常赞赏2025年美国AI行动计划,包含开源的内容。白宫AI行动计划中,专门有一节题为鼓励开源与开放式网络AI,对这类模型进行定义,并肯定它们对创新与初创企业的独特价值。
Nathan Lambert:这只是一项计划,我认为它是政府出台的最连贯政策文件之一,我希望它能成功落地。
我认识参与制定该计划的人,他们面临的挑战是如何将政策转化为现实。作为一名AI研究员,我不懂政治执行,我认为计划中的许多内容非常务实。
国家在大力建设AI基础设施,类似水资源管理一样,我们应该有能力在国内构建技术,同时确保建设过程不破坏国家本身,这是值得投入的。
联邦政府的作用在于制定议程,将开源模型作为首要考量,是他们能做出的巨大贡献。接下来,就看民间响应。
Sebastian Raschka:这对公司的人才教育与培养,至关重要。如果只有封闭模型,下一代研究人员如何通过实践来学习与贡献?
如果只能在加入大公司后,才能接触到技术,如何识别与招聘真正的人才?
开源是普及教育、培养下一代研究人员的最佳途径,甚至是唯一途径。
Nathan Lambert:我本可以讲一个更耸人听闻的故事,比如中国AI,成为超级智能,接管世界,以此来呼吁我们需要美国的模型。
我特意选择强调美国在创新与科学方面的进步,我认为这既是更现实的结果,是我更希望看到的未来。
Sebastian Raschka:我认为任何一个开源模型,都是有价值的。
Nathan Lambert:我的核心论点是,我们应该处于领先地位。我认为有必要把道理讲得通俗易懂,AI生态系统中仍有一些声音认为,出于安全风险,应该禁止发布开源模型。
在美国禁止开源是不可能的,除非我们建立自己的防火墙,这与我们互联网精神背道而驰。
训练这些模型的成本,无论是1千万、还是1亿美元,对世界上许多想施加影响的行为体是可以承受的,这些模型无论如何,都会在世界各地被训练出来。
存在安全担忧,我们仍希望这些信息与工具能够自由流动,跨越国界进入美国,供人们使用与学习。试图阻止这一点,将是对互联网架构的巨大重构,这在现实中几乎不可行。
Sebastian Raschka:这种情况下,中国的大型开源模型对美国公司未必是坏事。
美国公司在发布开源版本时,通常会有所保留,技术上会比内部版本落后一代。
例如,发布的可能是GPT-4o或Llama 3,不是最前沿的实验版本,这样更安全。
当他们看到类似DeepSeek V3这样非常出色的中国模型被广泛使用,没有引发任何灾难性的安全事故时,这可能会反向激励美国公司发布更好的模型。某种意义上说,这是一种积极的竞争压力。
Nathan Lambert:我认为中国公司的行动,起到催化剂的作用。如果他们没有发布这些模型,美国公司内部的某些讨论,可能根本不会发生。
Lex Fridman:未来世界上占主导地位的AI模型,是否有可能全部是开源的?
Nathan Lambert:这取决于未来的技术轨迹。
如果你认为几年内,技术进步会达到饱和,财政支持依然强劲,开源模型将凭借极致的优化与低廉的运行成本胜出。
这回归到开源的核心理念,将有更多人投入资源,来优化这些通用的开源架构,使其成为标准。
届时,你甚至可以拥有专为这些模型设计的芯片,成本将远低于闭源公司提供的定制服务。
Lex Fridman:我们需要提到,AI 2027报告预测了一个截然不同的结果,高度集权化。
随着AI系统越来越智能,国家安全问题将日益凸显,实验室将被集中管理,并高度保密。
军事角度看,中美间将展开一场竞赛。现在的开放讨论,可能会变成将军们走进来说,现在我们进入曼哈顿计划阶段,一切无可奉告。

Sebastian Raschka:我认为在2025、2026或2027年,这种结果完全不可能发生。
这就好比你对计算机或芯片提出同样的论点,你可以说计算机太强大,公众不应接触。但你看,即使类似华为这样的公司,花了几年时间,现在也能制造芯片。你无法遏制知识的传播,在这个时代,这类似试图遏制互联网一样,是不可能的。
Nathan Lambert:关于曼哈顿计划,我有一个有趣的看法,为开源模型投入类似曼哈顿计划的资源是非常合理的,它不仅成本相对可控,能带来巨大的战略价值。
我同意Sebastian Raschka的观点,极度保密的军事化结果不太可能发生。文化上看,公司在变得更加开放。
Lex Fridman:这样做,也没有正当理由。曼哈顿计划的驱动力是文明存续的风险,对开源模型,我很难找到类似的动机。
Nathan Lambert:目前不存在文明存续的风险。
Lex Fridman:硬件方面,我们多次提到英伟达。你认为黄仁勋与英伟达,会继续赢下去吗?
Sebastian Raschka:他们劣势在于需要不断迭代与大规模生产,他们在持续创新,总有可能出现某种完全不同的颠覆性技术,并幸运取得成功。
问题在于普及度,英伟达的护城河不仅是GPU,更多是CUDA生态系统,这可是20多年的积累。
记得我读研究生时,也是15年前,我们用Tesla GPU做生物物理模拟与分子动力学计算。这种长期的积累才是真正的壁垒,现在护城河不在于芯片本身,在于兼容性。
如果你是一家大公司,为什么要冒险选择一个年产仅几颗芯片的替代品,不选择市场领导者?
随着LLM发展,设计类似CUDA的软件栈可能会变得更容易。以前这很难,花了15年,现在有了LLM辅助编程,也许我们能更快复制CUDA的优势。
Lex Fridman:随着技术逐渐稳定,推理所需的计算量越来越大,训练与推理的计算会不会出现分离?
Nathan Lambert:这是Groq这类公司的价值主张,是新一代芯片架构如Verarubin等初创方案出现的原因。
这类新芯片没有昂贵的高带宽内存HBM,是专为预填充pre-fill阶段设计,即在推理过程中执行大量矩阵乘法的阶段。
之后,只有在进行自回归生成解码时,才需要频繁交换内存KV Cache。针对这种特定用例设计的GPU或专用芯片,单位运算成本会低得多。
我认为英伟达的命运,取决于AI的扩散速度。他们最大客户是谷歌、亚马逊、微软等超大规模企业,这些公司也都在自研芯片,如TPU、Trainium等。
只要AI进步的步伐够快,英伟达凭借平台的最强灵活性,依然会是首选。如果技术出现停滞,市场有更多时间转向定制芯片。
Lex Fridman:英伟达在开发各种不同产品方面,非常活跃。
Nathan Lambert:他们试图创造能够消耗大量GPU算力的商业领域,并为此不断创新。
Lex Fridman:他们在进行大量令人难以置信的研究。
Nathan Lambert:大家都说这家公司非常以黄仁勋为中心,他亲力亲为的程度极高。
这与我听说过的许多大公司截然不同,只要这种文化还在,我看好他们能持续进步,这类似乔布斯时代的苹果。
只要保持这种运作模式,我对他们前景相当乐观,这是他们核心命题。
我不知道对其他公司,为整个生态系统制造芯片是否是头等大事。他们也能做得不错,恐怕很难达到英伟达的高度。
Lex Fridman:既然提到黄仁勋,我最近读了很多历史,关于杰出人物的故事,你们怎么看英雄史观?
在科技领域,个人对引领历史走向有多重要?
如果没有黄仁勋,英伟达会怎样?
如果没有乔布斯,苹果会怎样?
没有马斯克,xAI会怎样?
没有Demis Hassabis,DeepMind会怎样?
Nathan Lambert:杰出人物能让人更早、更快创造事物。
科学角度看,许多伟大的科学家都承认,创新往往源于天时、地利,即便没有他们,最终也会有人提出同样的想法。
我觉得,黄仁勋的存在,让GPU革命来得更快、更聚焦,加速整个AI的建设进程。
我认为,类似ChatGPT这样的事物最终也会出现,基础设施也会建成,速度可能没这么快,风格会有所不同。
Sebastian Raschka:这些领袖,这些个体,是孤注一掷的人。有人运气好,有人运气差。
如果没有这些掌舵人,资源会更加分散。
这类似投资ETF指数基金与投资个股的区别,个股可能暴涨,也可能比均衡的ETF跌得更惨。
ETF最终会随时间上涨,我们终究会抵达终点,个体的力量在于专注,充满激情的专注。
Lex Fridman:这种说法有道理吗,如果没有黄仁勋,深度学习革命可能根本不会复兴?
Nathan Lambert:可能会晚20年。
或者我们可能会再次陷入AI寒冬,如果GPU没有出现,深度学习很可能会停滞不前。
Lex Fridman:这可能会彻底改写历史,你可以想象在此期间可能会涌现其他技术,人类文明的焦点,会被另一种炒作吸引过去。
Sebastian Raschka:GPU的发展轨迹,肯定有人为规划的成分,另一方面,也有很多幸运的巧合,或者说是极佳的直觉,比如对生物物理模拟的投资。
或者说,它最初是为电子游戏而生,后来碰巧在处理线性代数方面表现出色,电子游戏恰好需要大量的线性代数运算。
这之后才是生物物理模拟。我不认为最初的宏伟蓝图是AI,我觉得更多是类似Alex Krizhevsky这样的人,拿到这些GPU,心想,我们试着用它训练一个神经网络看看,结果效果出奇的好。
这一切能发生,仅是当时市场上能买到GPU。
Nathan Lambert:就算英伟达在早期倒闭,游戏产业的需求,也会催生更快的处理器,我是这么想的。
AlexNet使用的GPU可能会不同,在AlexNet与Transformer出现的节点,GPU这种硬件形式依然会存在。
很难说是否还会有一家公司如此成功,还是会有多家小公司提供性能稍差的芯片。这不太可能导致100年的延迟,顶多延迟10年。
Lex Fridman:可能是3~5年。
Nathan Lambert:我不认为是现在的这些巨头,可能会是另一家类似Silicon Graphics那样的公司,可能会是某家已经倒闭的公司来做这件事。
Lex Fridman:看看这些人就会觉得,这些杰出的领袖,对世界走向有着巨大影响,他们背后有不可思议的团队。拥有一种独特、近乎偏执的专注,对取得进步至关重要。
Sebastian Raschka:如果没有类似Ilya Sutskever这样大力推动大规模训练的人,GPT-3根本不会存在。
Nathan Lambert:对,Dario Amodei也深度参与。
读OpenAI历史你会发现,当时那些人提出我们需要连接1万GPU,并耗尽OpenAI所有的计算资源来训练一个模型,这种想法简直不可思议,当时很多人不想冒这个险。
Lex Fridman:在没有任何成功迹象的情况下,坚信大力出奇迹,这是何等疯狂的信念,这再次印证杰出人物的重要性。
如果100年后,假设我们已经进入后奇点时代,无论奇点到底是什么,当历史学家回顾当下,他们会认为哪些技术突破是引爆奇点的关键?从图灵时代算起,至今已有80年。
Sebastian Raschka:我认为核心是计算Compute,这是一个总称。甚至不需要100年,也许20年后,核心依然是它。我们现在只是在更好利用计算机,算力本身才是关键。
Lex Fridman:这是关于摩尔定律的讨论,代码细节、GPU架构细节,甚至软件的快速迭代都不会被记住。归根结底,最重要的还是算力。
Nathan Lambert:我大致同意,问题在于,是互联网的连接性与算力的融合,还是两者缺一不可?
Sebastian Raschka:互联网肯定相关,通过手机、卫星等手段实现的通信是基础,计算代表规模化的能力。
Lex Fridman:也许互联网作为一个独立概念会被遗忘,它已经融入电话网络或通信网络,成为一种基础设施。真正的突破来自算力的提升,也是广义上的摩尔定律。
Nathan Lambert:我认为人与人的连接是根本,你想找某个领域的世界顶尖专家,总能联系上,AI也将依赖这种信息的自由流动。
我觉得关于单一中心模型的梦想,已经破灭。未来趋势,是人们拥有许多用于不同任务的智能体Agents,这类似人们一开始为不同任务使用不同的云服务一样。
这可以被描述为数据中心里运行着许多AGI,每个AGI各司其职,相互交流。这高度依赖网络、建立在算力之上的信息流动。特别是与GPU相关的网络连接,是扩展算力的关键。数据中心里的GPU,必须相互通信。
Lex Fridman:神经网络这个概念会被记住吗?
你觉得它被视为突破,是它以一种非常粗糙,但独特的方式,模仿了人类大脑结构与思维吗?
Sebastian Raschka:我认为,如果没有人类思维作为灵感,不会有神经网络。
另一方面,它们两者非常不同,一个是数字的,一个是生物的,我觉得它很可能会被归类为一种算法。
Lex Fridman:这是一种能够利用特定算力,进行大规模并行处理的算法。
Sebastian Raschka:类似基因计算、遗传算法一样,它本质上是并行化的。只是这种方式,碰巧更高效、效果更好。
Lex Fridman:我们现在设计的神经网络,也是LLM,可能只是通往奇点的庞大系统中的一小部分。
Nathan Lambert:100年后回看,社会因更强的算力与智能化,源于AI的自主性,发生了巨变。
类似回顾工业革命,我们记住了什么,蒸汽机,它可能是那个时代的计算机。
当时还有许多人们熟知的物理变革,比如轧棉机与其他至今仍为人所知的机器。空调与冰箱是那个时代的发明,沿用至今。
同理,AI领域的一些东西也会被铭记。Transformer这个词很可能会留下来,深度学习肯定也会被记住。
100年后,Transformer可能已经进化得面目全非,那时会有超级AI/ASI与遍布各地的AI研究员,深度学习这个术语应该会被载入史册。
Lex Fridman:我很好奇AI时代的空调与冰箱会是什么,如果穿越到100年后,世界会有什么不同?
首先,那时还有人类吗,还是说到处都是机器人?
Sebastian Raschka:肯定会有针对特定任务的专业机器人,可能是半人形的。
既然它们适应人类环境,人形设计在某些方面是合理的。
比较难想象的是,我们如何与设备互动。我相当确定,到时可能不再用手机或笔记本电脑,也许是植入设备?
Lex Fridman:那肯定是脑机接口,鉴于目前进展,除非我们与现实交互的方式发生根本性转变,否则这是必然方向。
Sebastian Raschka:换个角度看,汽车发明已经超过100年,交互界面基本没变。我们没有取代汽车,只是把它造得更好,依然是方向盘,依然是轮子。
Nathan Lambert:我觉得人们还是会随身携带某种物理计算设备,大家需要一种私密感。
你可能不像现在刷手机频繁,但拥有一个存储私密信息、作为你连接互联网接口的独立设备,这种需求会一直存在。
它可能长得不像iPhone,使用频率没那么高,我预感人们还是会随身带个东西。
Lex Fridman:既然带着摄类似头,你为什么觉得智能手机能代表私密性?
Nathan Lambert:是对你个人的私密,比如加密的消息、照片,这些代表了你的生活。
这取决于你对脑机接口有多乐观,你的整个日程安排、所有数据,真的都要存在云端?
很难想象,如何通过脑机接口,直接处理我们视觉上接收的所有信息,比如向你展示日历。
很难想象不用眼睛看,就能知道收件箱里有什么邮件。你向计算机发个信号,然后你就知道了?那是什么感觉?人脑能处理这种非视觉输入?
我不清楚这种转换,具体如何实现,人类在100年内,不会在生物学上有大突变。我认为能动性与社区感,才是人们真正想要的。
请务必阅读免责声明与风险提示