2026年的机器人行业,虽然发展很快,但硬件迭代速度与智能泛化能力依旧尚未匹配。
硬件端,行业处在爆发期:国内人形机器人年产量预计年内突破10万台,工业机械臂年出货量超30万台,机械臂自由度从16个升级至22个,负载、运动精度、量产能力均实现阶跃式提升;
但落地端,尚未突破核心瓶颈——90%以上的机器人仍局限在预设场景的固定任务,一旦换环境、调整物体位置、改变光照条件,任务成功率就会出现断崖式下跌,距离通用化落地还有很长的路。
最近,英伟达NVIDIA具身智能研究负责人Jim Fan在红杉资本AI Ascent峰会的演讲中,抛出一个判断:
机器人技术将完整复刻大语言模型(LLM)的成功路径,完成从预训练、监督微调、强化学习推理到自主研究的全链路闭环;当前行业主流的VLA范式已触达能力天花板,世界模型、世界动作模型(WAM)、第一人称视角数据,将成为决定终局之战的三大核心变量。

过去三年,视觉-语言-动作(VLA)模型是全球机器人行业的绝对主流技术路线。
核心逻辑是复用预训练完成的视觉-语言大模型,嫁接动作输出模块,实现从自然语言指令到机器人动作序列的直接映射。这条路线的核心优势,是能够快速借力大模型的语言理解与视觉识别能力,短时间内跑出demo级的任务效果,Pi-zero、GR00T等行业标志性产品,均基于VLA架构开发。
Jim Fan在演讲中指出VLA范式的缺陷:架构设计上天然“重语言、轻动作”,模型绝大部分参数集中在语言模块,视觉与动作始终处于从属地位,最终导致模型擅长识别“是什么”,却无法真正理解物理世界里“怎么做”。
这正是当前机器人落地难的核心根源。VLA模型的信息传递是线性的:先通过视觉模块识别物体,再通过语言模块理解指令,最后通过动作模块生成轨迹,每一次模块传递都会出现信息损耗与决策延迟。
更本质的问题是,VLA的核心是模仿学习,而非对物理世界的底层理解——它只能复刻训练中见过的动作序列,无法应对真实世界里无穷无尽的不确定性。
行业实测数据已经验证了这一天花板。2026年CVPR ManipArena挑战赛结果显示,主流VLA模型在非预设场景下,任务成功率平均下跌超50%;当物体摆放位置、桌面材质、光照条件发生变化时,多数模型直接失效。
国内多家头部人形机器人厂商的落地数据也显示,基于VLA架构的产品,在家庭、工厂等真实场景的长期稳定运行率不足30%,每次场景切换都需要重新进行数据采集与模型微调,根本无法实现通用化部署。
这意味着,VLA范式已经触达了自身的能力边界。它可以支撑机器人完成固定场景的演示任务,却无法支撑行业走向真正的通用具身智能,架构迭代已经迫在眉睫。
世界模型如何给机器人装上“物理大脑”?Jim Fan提出被其称为“伟大的平行”的技术路线:大语言模型通过“下一个词预测”完成预训练,学习到人类语言的全部底层规律;机器人则可以通过“下一个物理世界状态预测”完成预训练,学习真实世界的物理规则,最终完整复刻LLM从预训练到自主迭代的成功路径。
这条路线有着清晰的一一对应关系:LLM的文本预训练,对应机器人的世界模型预训练;LLM的监督微调对齐,对应机器人的动作微调;LLM通过强化学习实现推理能力突破,对应机器人在虚拟环境中的大规模强化学习训练;LLM的自动研究闭环,对应机器人的物理世界自主迭代。
而实现这条路线的核心架构迭代,就是从VLA到WAM(世界动作模型)的跨越。Jim Fan团队推出的DreamZero,是WAM范式的典型落地产品。
不同于VLA“从观测直接输出动作”的线性逻辑,WAM实现了世界状态预测与机器人动作输出的联合解码——模型会先预测执行动作后环境的物理变化,再基于模拟结果输出最优动作序列,实现了“先预判、再行动”的决策逻辑。
实测数据显示,DreamZero的零样本跨场景任务泛化能力,较主流VLA模型提升超6倍,非预设场景下的任务成功率保持在85%以上。更关键的是,在WAM架构中,视觉与动作终于回归核心地位,模型的动作决策完全建立在对物理世界的理解之上,而非语言指令的简单翻译。
目前,全球已有超20家头部机器人厂商与科研机构启动了WAM架构的研发,国内的魔法原子、自变量科技、智元机器人等企业,均已发布基于WAM的机器人模型,行业正在快速完成从VLA到WAM的底层架构切换。
本质上,WAM范式让机器人的核心决策逻辑从“语言优先”转向“物理优先”,第一次让机器人拥有了对物理世界的底层理解能力,这是从“专用自动化工具”到“通用具身智能”的核心跨越。
千亿小时人类视频,才是机器人的终极燃料?如果说架构是机器人的核心骨架,数据就是决定其能力上限的核心燃料。
过去三年,行业主流的数据采集方式是遥操作:通过VR设备、低延迟传输系统,让操作员远程操控机器人录制动作数据。
Jim Fan指出,遥操作已经触达了无法突破的物理极限。遥操作的理论上限是单台机器人每天24小时,而行业实际有效数据采集时长,平均仅为单台每天3小时,还面临硬件故障、操作失误等大量损耗。
截至2026年,全球头部机器人厂商的累计遥操作数据,最高仅为10万小时级别,与LLM万亿token级的预训练语料存在数量级差距,这也是机器人模型始终无法涌现通用能力的核心原因。
行业曾尝试通过UMI(通用操作接口)破局:将机械手直接穿戴在人手上,直接采集人类动作数据,采集效率较遥操作提升超10倍,也孵化出多家行业独角兽。Jim Fan团队推出的Dex UMI外骨骼,更是实现了与五指灵巧手的一对一映射,大幅提升了高难度灵巧操作的数据采集效率。但在Jim Fan看来,UMI仍属于过渡方案,其依然需要人类主动配合,无法实现无感规模化采集。
真正的解决方案,是人类第一人称视角视频。
演讲中,Jim Fan团队的EgoScale模型,验证了这条路线:模型用2.1万小时真实世界人类第一人称视角视频完成预训练,全程未使用任何机器人数据,仅在微调阶段使用了50小时动捕数据与4小时遥操作数据(占比不足0.1%),就实现了卡片分类、注射器移液、叠衬衫等多类高灵巧任务的泛化,仅需一次单样本演示即可学习全新操作策略。
其团队也首次验证了机器人的“神经规模法则”:预训练数据时长与模型验证损失,呈现完美的对数线性关系。这一发现彻底打开了机器人模型的成长空间——它意味着,只要持续扩大预训练数据规模,模型能力就会持续、可预测地提升,这正是当年开启大语言模型狂飙时代的核心底层逻辑。
Jim Fan给出明确预测:未来1-2年,遥操作在机器人训练中的占比将持续下降至可忽略水平;穿戴式数据设备将迎来短期爆发,但最终,第一人称视角视频将成为机器人预训练的核心数据来源。
互联网上千亿小时量级的人类第一人称视频,将成为机器人行业最大的数据金矿,开启真正的规模化数据飞轮。
算力即环境:机器人规模化的核心关键架构与数据的问题解决后,机器人行业还面临最后一个核心瓶颈:规模化训练环境的搭建。
LLM的强化学习,可以在百万级虚拟代码环境中并行运行,而传统机器人的强化学习,高度依赖真机实体运行。想要100万个并行训练环境,就需要100万台机器人实体,无论从成本还是物理空间来看,都完全不具备可行性。
Jim Fan给出的核心等式,打破这一限制:算力=环境,环境=数据。
目前,行业已经形成了两条可落地的规模化环境搭建路径。第一条是real-to-sim-to-real闭环:通过普通消费级手机,即可完成真实场景的3D扫描,提取可交互物体并在模拟器中自动重建,再通过数字变体实现无限数据增强,实现真实世界到虚拟环境的批量移植。
第二条更具颠覆性的路径,是神经模拟器的落地。Jim Fan团队推出的DreamDojo,直接将视频世界模型转化为全功能神经模拟器,无需传统图形引擎与人工编写的物理方程,纯靠数据驱动即可学习机器人的物理机制,根据输入的动作信号,实时输出对应的环境画面与传感器状态。
这意味着,机器人的训练环境彻底摆脱了物理实体的限制。只要有足够的GPU算力,即可生成数百万个完全可交互的虚拟训练环境,实现大规模并行强化学习。机器人的策略迭代,无需再依赖真机的反复试错,在数字世界中即可完成百万级的训练闭环。
国际机器人联合会(IFR)2026年发布的行业报告显示,AI与生成式模型对机器人训练范式的重构,已经成为全球机器人行业的第一大趋势。
世界模型与神经模拟器的结合,将机器人训练的边际成本降低了99%以上,彻底解决了规模化训练的核心瓶颈。
我们离通用机器人还有多远?演讲最后,Jim Fan指出机器人终局的三个关键里程碑,为行业划定清晰的时间线。
第一,是2-3年内通过物理图灵测试。核心标准是,在各类日常劳动任务中,人类无法区分任务执行者是人类还是机器人,核心考核指标是“单位能量投入的劳动产出效率”达到人类同等水平。
第二,是标准化物理API的落地。实现机器人群体的标准化调度与协同,像通用软件一样通过API完成配置与编排。这一技术落地后,将实现真正的全自动化“黑灯工厂”,也能支撑化学、生物、医学等领域的全自动实验室运行。
第三,是物理自动研究的实现。即机器人能够自主设计、改进、制造下一代自身硬件与模型,完成完全闭环的自我进化。Jim Fan预测,这一目标将在2040年前实现。
回望AI发展历程,从2012年AlexNet实现图像识别突破,到2026年大模型实现自主研究能力,仅用了14年。而2026年,正处于2012年与2040年的中点,科技的发展从来都不是线性的,而是指数级的突破。机器人的通用化时代,或许会比预期的来得更快。