我们离通用机器人还有多远？

2026年的机器人行业，虽然发展很快，但硬件迭代速度与智能泛化能力依旧尚未匹配。

硬件端，行业处在爆发期：国内人形机器人年产量预计年内突破10万台，工业机械臂年出货量超30万台，机械臂自由度从16个升级至22个，负载、运动精度、量产能力均实现阶跃式提升；

但落地端，尚未突破核心瓶颈——90%以上的机器人仍局限在预设场景的固定任务，一旦换环境、调整物体位置、改变光照条件，任务成功率就会出现断崖式下跌，距离通用化落地还有很长的路。

最近，英伟达NVIDIA具身智能研究负责人Jim Fan在红杉资本AI Ascent峰会的演讲中，抛出一个判断：

机器人技术将完整复刻大语言模型（LLM）的成功路径，完成从预训练、监督微调、强化学习推理到自主研究的全链路闭环；当前行业主流的VLA范式已触达能力天花板，世界模型、世界动作模型（WAM）、第一人称视角数据，将成为决定终局之战的三大核心变量。

VLA局限：为何机器人“看得懂，却做不对”？

过去三年，视觉-语言-动作（VLA）模型是全球机器人行业的绝对主流技术路线。

核心逻辑是复用预训练完成的视觉-语言大模型，嫁接动作输出模块，实现从自然语言指令到机器人动作序列的直接映射。这条路线的核心优势，是能够快速借力大模型的语言理解与视觉识别能力，短时间内跑出demo级的任务效果，Pi-zero、GR00T等行业标志性产品，均基于VLA架构开发。

Jim Fan在演讲中指出VLA范式的缺陷：架构设计上天然“重语言、轻动作”，模型绝大部分参数集中在语言模块，视觉与动作始终处于从属地位，最终导致模型擅长识别“是什么”，却无法真正理解物理世界里“怎么做”。

这正是当前机器人落地难的核心根源。VLA模型的信息传递是线性的：先通过视觉模块识别物体，再通过语言模块理解指令，最后通过动作模块生成轨迹，每一次模块传递都会出现信息损耗与决策延迟。

更本质的问题是，VLA的核心是模仿学习，而非对物理世界的底层理解——它只能复刻训练中见过的动作序列，无法应对真实世界里无穷无尽的不确定性。

行业实测数据已经验证了这一天花板。2026年CVPR ManipArena挑战赛结果显示，主流VLA模型在非预设场景下，任务成功率平均下跌超50%；当物体摆放位置、桌面材质、光照条件发生变化时，多数模型直接失效。

国内多家头部人形机器人厂商的落地数据也显示，基于VLA架构的产品，在家庭、工厂等真实场景的长期稳定运行率不足30%，每次场景切换都需要重新进行数据采集与模型微调，根本无法实现通用化部署。

这意味着，VLA范式已经触达了自身的能力边界。它可以支撑机器人完成固定场景的演示任务，却无法支撑行业走向真正的通用具身智能，架构迭代已经迫在眉睫。

世界模型如何给机器人装上“物理大脑”？

Jim Fan提出被其称为“伟大的平行”的技术路线：大语言模型通过“下一个词预测”完成预训练，学习到人类语言的全部底层规律；机器人则可以通过“下一个物理世界状态预测”完成预训练，学习真实世界的物理规则，最终完整复刻LLM从预训练到自主迭代的成功路径。

这条路线有着清晰的一一对应关系：LLM的文本预训练，对应机器人的世界模型预训练；LLM的监督微调对齐，对应机器人的动作微调；LLM通过强化学习实现推理能力突破，对应机器人在虚拟环境中的大规模强化学习训练；LLM的自动研究闭环，对应机器人的物理世界自主迭代。

而实现这条路线的核心架构迭代，就是从VLA到WAM（世界动作模型）的跨越。Jim Fan团队推出的DreamZero，是WAM范式的典型落地产品。

不同于VLA“从观测直接输出动作”的线性逻辑，WAM实现了世界状态预测与机器人动作输出的联合解码——模型会先预测执行动作后环境的物理变化，再基于模拟结果输出最优动作序列，实现了“先预判、再行动”的决策逻辑。

实测数据显示，DreamZero的零样本跨场景任务泛化能力，较主流VLA模型提升超6倍，非预设场景下的任务成功率保持在85%以上。更关键的是，在WAM架构中，视觉与动作终于回归核心地位，模型的动作决策完全建立在对物理世界的理解之上，而非语言指令的简单翻译。

目前，全球已有超20家头部机器人厂商与科研机构启动了WAM架构的研发，国内的魔法原子、自变量科技、智元机器人等企业，均已发布基于WAM的机器人模型，行业正在快速完成从VLA到WAM的底层架构切换。

本质上，WAM范式让机器人的核心决策逻辑从“语言优先”转向“物理优先”，第一次让机器人拥有了对物理世界的底层理解能力，这是从“专用自动化工具”到“通用具身智能”的核心跨越。

千亿小时人类视频，才是机器人的终极燃料？

如果说架构是机器人的核心骨架，数据就是决定其能力上限的核心燃料。

过去三年，行业主流的数据采集方式是遥操作：通过VR设备、低延迟传输系统，让操作员远程操控机器人录制动作数据。

Jim Fan指出，遥操作已经触达了无法突破的物理极限。遥操作的理论上限是单台机器人每天24小时，而行业实际有效数据采集时长，平均仅为单台每天3小时，还面临硬件故障、操作失误等大量损耗。

截至2026年，全球头部机器人厂商的累计遥操作数据，最高仅为10万小时级别，与LLM万亿token级的预训练语料存在数量级差距，这也是机器人模型始终无法涌现通用能力的核心原因。

行业曾尝试通过UMI（通用操作接口）破局：将机械手直接穿戴在人手上，直接采集人类动作数据，采集效率较遥操作提升超10倍，也孵化出多家行业独角兽。Jim Fan团队推出的Dex UMI外骨骼，更是实现了与五指灵巧手的一对一映射，大幅提升了高难度灵巧操作的数据采集效率。但在Jim Fan看来，UMI仍属于过渡方案，其依然需要人类主动配合，无法实现无感规模化采集。

真正的解决方案，是人类第一人称视角视频。

演讲中，Jim Fan团队的EgoScale模型，验证了这条路线：模型用2.1万小时真实世界人类第一人称视角视频完成预训练，全程未使用任何机器人数据，仅在微调阶段使用了50小时动捕数据与4小时遥操作数据（占比不足0.1%），就实现了卡片分类、注射器移液、叠衬衫等多类高灵巧任务的泛化，仅需一次单样本演示即可学习全新操作策略。

其团队也首次验证了机器人的“神经规模法则”：预训练数据时长与模型验证损失，呈现完美的对数线性关系。这一发现彻底打开了机器人模型的成长空间——它意味着，只要持续扩大预训练数据规模，模型能力就会持续、可预测地提升，这正是当年开启大语言模型狂飙时代的核心底层逻辑。

Jim Fan给出明确预测：未来1-2年，遥操作在机器人训练中的占比将持续下降至可忽略水平；穿戴式数据设备将迎来短期爆发，但最终，第一人称视角视频将成为机器人预训练的核心数据来源。

互联网上千亿小时量级的人类第一人称视频，将成为机器人行业最大的数据金矿，开启真正的规模化数据飞轮。

算力即环境：机器人规模化的核心关键

架构与数据的问题解决后，机器人行业还面临最后一个核心瓶颈：规模化训练环境的搭建。

LLM的强化学习，可以在百万级虚拟代码环境中并行运行，而传统机器人的强化学习，高度依赖真机实体运行。想要100万个并行训练环境，就需要100万台机器人实体，无论从成本还是物理空间来看，都完全不具备可行性。

Jim Fan给出的核心等式，打破这一限制：算力=环境，环境=数据。

目前，行业已经形成了两条可落地的规模化环境搭建路径。第一条是real-to-sim-to-real闭环：通过普通消费级手机，即可完成真实场景的3D扫描，提取可交互物体并在模拟器中自动重建，再通过数字变体实现无限数据增强，实现真实世界到虚拟环境的批量移植。

第二条更具颠覆性的路径，是神经模拟器的落地。Jim Fan团队推出的DreamDojo，直接将视频世界模型转化为全功能神经模拟器，无需传统图形引擎与人工编写的物理方程，纯靠数据驱动即可学习机器人的物理机制，根据输入的动作信号，实时输出对应的环境画面与传感器状态。

这意味着，机器人的训练环境彻底摆脱了物理实体的限制。只要有足够的GPU算力，即可生成数百万个完全可交互的虚拟训练环境，实现大规模并行强化学习。机器人的策略迭代，无需再依赖真机的反复试错，在数字世界中即可完成百万级的训练闭环。