DC娱乐网

超越Sora,通往物理世界:贾奎详解世界模型驱动的具身智能新范式

尽管当前学术界和产业界对人形机器人与具身智能投入巨大,但一个严峻的挑战也随之浮现:为何当前的机器人AI,在语言能力上表现

尽管当前学术界和产业界对人形机器人与具身智能投入巨大,但一个严峻的挑战也随之浮现:为何当前的机器人AI,在语言能力上表现出色,但在物理行动上却步履维艰?

▍人形机器人的局限性与理解缺失

人类真实世界是连续、高维且充满动态变化的复杂系统。当人形机器人的任务复杂度提升——例如,让它从“在桌上抓取苹果”变为“在杂乱厨房里找到容器并倒一杯牛奶”这类长序列任务,机器人的模型需要处理的变量和逻辑(如判断瓶盖是否需要拧开、杯子是否需要扶正)急剧增加。这导致所需的数据量呈指数级增长,而系统的成功率则大幅下降。

这种困境的根源在于,大多模型跳过了对世界本质的理解,直接在数据层面进行模仿。从指令“请帮我切开这个苹果”到机器人完成动作,中间缺失了对几何、物理、因果关系等关键“中间知识”的理解。没有这些知识,模型的泛化能力便无从谈起,只能在高度受控的环境中运行,一旦进入真实、复杂的场景便会失效。

▍技术的迭代与全新度量衡

如何让机器人在复杂的物理世界中进行有效交互,一直是具身智能领域的核心挑战。

图灵奖得主Yann LeCun提出了“世界模型”(World Model)的概念,他认为真正的智能必须建立在对世界运作方式的理解之上。这个模型的核心思想是让智能体在行动前,能通过内部模拟来预见“如果我这样做,世界会发生什么?”,从而做出更优的决策。今年,这一理念也获得了业界的广泛回响,涌现出众多相关研究。

与此同时,以 Sora 为代表的视频生成模型的惊人进展,似乎为构建世界模型带来了曙光。如果AI能够“看见”并“想象”出行动的视觉后果,它是否就能够解决上述问题?然而,我们必须认识到,预测像素层面的视觉变化,与真正理解其背后的物理规律(如因果、物体恒存、重力等)之间,存在着巨大的鸿沟。

当前的视频生成模型更像是一个视觉连贯性生成器,而非精确的世界模拟器。它生成的视频可能在视觉上看似合理,但其中的物理过程可能是失真的:一个球的弹跳可能违反能量守恒,一次碰撞可能不遵循动量定律。模型学会了“推动”与“移动”在视觉上的关联,却没有理解其背后的物理因果链条。这种缺失对于需要与物理世界精确交互的机器人是致命的。

如果说机器人在LLM时代,其核心是“规模定律”(Scaling Law)——更大的模型和更多数据带来更强的能力,那么人形机器人与具身智能时代则迫切需要一个新的指导原则。

跨维在此提出了一种名为“效率法则”(Efficiency Law)的新思路。该法则的核心关注点不再是静态的数据量,而是动态的数据生成效率。即:在给定的算力和时间预算下,一个智能体能以多快的速度,通过与环境的自主交互,自动化地生成高质量、蕴含物理知识的经验数据,并据此提升自身解决问题的能力?

“效率法则”揭示了具身智能的核心瓶颈:我们缺的不是算力,而是将算力高效转化为有价值物理经验的机制。依赖人类示教或真实世界互动的方式,数据生成效率极低。要实现突破,必须构建一个能自动化、高效率生成高质量数据的“学习飞轮”。

▍跨维智能的解决方案:GS-World生成式仿真世界模型

基于以上思考,跨维智能提出了一套全新的范式:GS-World(Generative Simulation World Model,生成式仿真世界模型)。

GS-World代表了一次根本性的思想转变:与其预测世界的外在表象(像素),不如生成世界的内在机理(物理)。它不是一个视频生成器,而是一个可交互、懂物理、可微分的动态仿真引擎。

GS-World的核心能力,是以统一的生成式框架,直接产出驱动物理世界运转的核心要素:

• 3D资产生成:自主生成刚体、软体、流体等物体的几何模型与外观。

• 物理属性生成:为资产赋予质量、摩擦系数、弹性模量等真实物理参数。

• 动力学模型生成:理解并生成物体间的作用力、约束关系和运动方程。

简而言之,当GS-World面对一个场景,它思考的不仅仅是“画面会如何变化”,更是“构成世界的元素是什么?它们遵循哪些物理规律?施加一个力会引发怎样的因果传导?”。它生成的是一个可供机器人反复实验和验证的“物理沙盒”,而非一段被动的视频。

实现路径

要实现Physical AGI,我们设想了一条清晰的技术路径:让VLA模型学会与物理引擎“合作”,并最终让机器人大脑成为一个“懂物理”的引擎本身。

具体而言,不再去猜测物体运动的轨迹,而是学习调用和理解一个内置的、可微分的物理模拟器。当机器人观察一个场景时,它会学习生成该场景的3D模型、物理属性,并设定交互规则。这个过程是“可微分”的,意味着每一次模拟的成败都能转化为明确的数学信号(梯度),指导模型如何修正其内部参数。通过这种方式,模型学习生成的是由物理规律驱动的、可交互的动态世界。

更进一步,机器人最终能超越人类编写的固定规则。通过观察真实世界,可以自主学习并归纳出难以用公式描述的复杂物理现象(如线束穿过小孔、粘性液体流动),从物理规则的“使用者”变为“发现者”和“建模者”。这极大地弥补了理想化模拟与复杂现实之间的鸿沟(Sim-to-Real Gap)。

▍技能学习的新范式:在内部物理世界中规划与演练

拥有GS-World后,机器人学习技能的方式将发生根本性改变。它可以在行动前,在内部世界里进行数万次零成本、超高速的虚拟演练。

1.基于“可供性链”的任务分解

以“倒咖啡”为例,任务需要被分解。这个分解过程基于机器人对物体物理用途的理解,我们称之为“可供性链”(Chain of Affordance)推理。

• 物体可供性 (Object Affordance):机器人从内部模型中知道杯子的位置、重量、材质以及如何抓握。

• 操作可供性 (Manipulation Affordance):在模拟中验证“按下”按钮的可行性,“倾倒”咖啡所需的姿态和力度。

• 空间可供性 (Spatial Affordance):理解杯子应被放置的区域,以及移动路径上是否有障碍。

通过这种推理,机器人能将复杂任务自主分解为一系列物理上可行、逻辑上连贯的子任务。

2.闭环的“演练-评分-反思”

对于每个子任务,机器人在GS-World中通过强化学习或运动规划进行优化。同时,它具“具身反思推理”(Reflective Embodied Reasoning)能力。如果在模拟中发现某一步反复失败(例如“拿起杯子”),它会回溯并探索其他任务分解或技能执行策略,而不是盲目重试。这个“分解-演练-评分-反思”的闭环,构成了一个强大的“技能生成引擎”。

▍从虚拟到现实:通往真正可用的机器人智能

GS-World的最终价值在于解决“从模拟到现实”(Sim-to-Real)的迁移难题。

跨维智能提出的新一代VLA模型架构,其高层规划脑(System 2)与低层执行脑(System 1)共享同一个源自GS-World的物理世界观,确保了“思考”与“行动”在物理层面的统一。

最关键的是,GS-World通过学习物理本质而非视觉表象,解决了当前生成视频类世界模型距离落地应用的核心难题。当机器人进入现实世界,与物体的运动学参数、动力学参数相关的物理法则是不变的。GS-World学习的正是这些超越视觉、连接虚拟与现实的“领域不变”知识。因此,在GS-World中学成的技能,能够以极少调整甚至“零样本”的方式,直接迁移到真实机器人上。

这引领我们走向一种全新的“引擎驱动学习”(Engine-driven Learning)范式。具身智能体拥有了一个永不枯竭的数据源——GS-World,可按需生成无穷无尽的训练场景,可以在持续的自主探索中实现自我进化。我们甚至可以利用这套框架,在模拟中评估并优化机器人的硬件形态(如臂长、关节数量),实现软硬件的一体化协同进化。

▍结语

我们正处在人形机器人与AI发展的关键路口:一条是继续在数据与像素表象上进行模型训练,追求在特定场景下的成功;另一条则是选择更具挑战但更稳固的道路,教会AI真正理解并掌握世界运行的根本法则——物理。

GS-World所倡导的正是第二条道路。它构想的未来是,AI不再是仅仅模仿人类行为的系统,而是能通过内部世界的物理推演来理解、预测并与世界进行创造性互动的理性行动者。我们坚信,这条路将为通往真正稳固、可解释、可扩展的通用人工智能奠定坚实的基础。