DC娱乐网

登顶权威榜单!无界动力首个长时序双向物理因果链隐空间世界模型

机器之心发布 当前,物理 AI 正面临着关于泛化能力的普遍质疑。当模型缺乏对真实物理规律的深度认知、难以跨越复杂多变的

机器之心发布

当前,物理 AI 正面临着关于泛化能力的普遍质疑。当模型缺乏对真实物理规律的深度认知、难以跨越复杂多变的开放场景时,如何让机器人真正理解物理世界并精准规划决策,已成为具身智能破局的关键。

今日,无界动力正式发布全球首个 “长时序双向物理因果链” 隐空间世界模型 ——MWA™ 具身通用大脑,采用 “双向动力学” 架构,在全程统一共享潜空间中推演,实现高能效精准表征的同时,创新性地实现了时序 Chunk 级逆向动力学建模机制,从底层范式上为机器人多场景泛化与高精度执行提供了全新解法。

同时,无界动力在由斯坦福大学等顶尖机构联合发起的具身智能权威榜单 RoboCasa GR1 TableTop 中刷新行业纪录、斩获全球第一,超越英伟达 GR00T-N1.6 等一众行业主流模型。

在这份领跑成绩的背后,是无界动力对世界模型技术路线的范式重构。

让机器人能干活的真正卡点是什么?

过去几年,以视觉 - 语言 - 动作一体化为核心的 VLA 路线,曾凭借语义联动能力推动了行业的早期迭代。但当它被推向真实场景时,这种传统以语言为中介的具身模型架构,试图将连续的物理世界塞入离散的语义空间,其泛化天花板已然显现:当模型跨入高动态、多元化的开放场景时,往往缺失对物理边界与规律的认知,从而失去了在多变场景中自主预测与长效进化的能力。

为解决这一困境,行业开始尝试探索世界模型的技术路线。但这一探索仍面临两大挑战:一是传统的视频生成类世界模型执着于预测 “下一帧画面长什么样”,由于要对光影变化、微观杂质等海量无效的视觉表象进行无意义生成,带来了巨大的计算冗余与像素噪声。相比之下,隐空间世界模型能够彻底过滤掉与决策无关的像素细节,把注意力牢牢聚焦在物理世界的本质规律上,让机器人真正理解动作与物理世界变化之间的因果关系,从而构筑起物理世界认知与未来状态预测的核心能力。 但与此同时,不少 “隐空间世界模型” 也受限于 “单步瞬时潜动作推理” 的时序局限,让机器人只能 “走一步、看一步、猜一步”。在这种缺乏物理常识约束的架构下,微小的单步预测偏差会像滚雪球一样迅速放大,在长周期的连续作业时直接引发系统性崩溃。

因此,要让机器人真正实现广义泛化与高效交付,必须在隐空间内真正建立起对物理因果规律的深度推演能力,同时让模型具备长时序的连贯规划能力。

“长时序双向物理因果链” :隐空间世界模型架构创新

无界动力创始人兼 CEO 张玉峰曾分享过基于第一性原理对具身大脑本质的思考与洞察:具身大脑的终极目标是让机器人拥有类人的世界认知建模能力,而非构建客观世界的完整复刻模型。真正的具身智能不需要在世界的像素层面(或微观层面)去一比一还原世界的所有冗余,而是应当像人类大脑一样,在高度抽象的隐空间中,直击物理因果与高维度常识的本质。

也是基于这个本质思考,无界动力的具身通用大脑 MWA™ 采用了 “双向动力学” 架构,首创 “长时序双向物理因果链” 隐空间世界模型。

一、潜动作自监督预训练:在隐空间淬炼通用物理常识

这一阶段的预训练目标,是让具身大脑在隐空间内自主习得通用物理交互与因果演变的规律。

为了做到这一点,MWA™ 以 “潜动作(Latent Action)” 作为物理因果的 “载体”,通过逆动力学编码器,将导致画面改变的动作转化为高维向量。该向量不对应特定的硬件控制序列,而是指向抽象、通用的 “场景交互变化表征”。这种通用表征的引入,突破了具身通用大脑的两大训练瓶颈:一是摆脱了对动作标签的高度依赖,让模型仅凭观察前后画面变化就能 “由果推因”,深度盘活了 “无标签原始数据”,从互联网上的海量视频中自主汲取通用物理常识;二是天然约束了隐空间边界,让隐空间注意力完全聚焦于动态交互动作本身,让机器人的决策更精准,实现了数据能效的飞跃。

二、双向动力学:“由因及果 + 由果推因” 的协同逻辑

MWA™ 在 “隐空间世界模型” 的基础上,采用 “双向动力学” 架构,在具身通用大脑中建立起了一套正逆双向的逻辑协同。

当面临海量无标注数据时,逆动力学编码器负责 “由果推因” 的因果复盘,通过观察前后时序画面的空间结构变化,从时序画面中抽离出通用的抽象 “场景交互变化表征”,自主将时序信号淬炼为通用的物理常识。预训练完成后,逆动力学编码器权重将被冻结,成为固定不变的通用物理评判基准,为后续策略训练提供稳定的潜态对齐目标。

与此对应,正动力学解码器负责 “由因及果” 的正向推演,将抽象动作表征注入视觉特征,正向推演未来场景可能发生的变化。通过一正一反的双向自监督机制,模型得以在抽象动作空间里反复校正预测偏差,确保了机器人决策的稳健性。

在此基础上,MWA™ 完成关键技术升级,首创 “长时序双向物理因果链” 隐空间世界模型。业界在隐空间世界模型的探索中,消融实验显示其稳定规划域普遍在 4 秒以内,一旦推演时序超越这一极限,高维表征漂移便会显著上升。MWA™ 打破传统单步瞬时潜动作推理的瓶颈,实现时序 Chunk 级逆向动力学建模,充分考虑动作链之间的连锁反应和环境博弈,能够稳定规划 10 秒以上长周期连续动作序列,形成多步潜动作块(Latent Action Chunk),从根本上补齐了传统世界模型长周期操控易误差累积、动作不连贯的技术短板。

三、三重梯度约束:在隐空间构建确定性的策略边界

在模型推理阶段,MWA™ 严格遵循 “冻结基准、适配场景、落地控制” 的底层逻辑,引入了三重梯度约束:

首先,通过正动力学解码器预判未来环境的特征与几何变化,并以实际特征为真值修正预测偏差,不断强化具身通用大脑的物理推理能力;其次,策略输出的潜动作需要与预先冻结的编码器的输出结果对齐,让机器人理解的动作符合真实场景演化规律;最后,将隐空间中抽象、通用的 “潜动作”,精准映射为硬件本体可执行的连续控制序列。

为了更直观地理解这三重梯度约束如何在潜空间中协同发力,可以解构一个机器人 “擦桌子” 的经典长周期任务来理解:

当机器人看到桌子上有水渍、且水渍旁伫立着一个易碎的玻璃杯时 ——

负反馈闭环(物理边界试错): 端到端的策略网络(Policy Head)基于直觉快速输出一个原始动作 z(如使用抹布从右向左擦拭)。此时,负责因果推演的正动力学模型(FDM)基于当前图像隐特征与该动作,在 “脑内沙盘” 中前置推理出下一帧的隐空间变化:杯子将被无意打翻。这一不可接受的后果,随即与当前特征一同输入给负责 “由果推因” 的逆动力学模型(IDM),反向精确锁定造成杯子被打翻的本质动作分量 z'。Policy Head 随即做出价值判断,在梯度回传更新时,强制策略远离该危险动作区间,用物理因果链提前规避了现实中的碰撞打滑。


正反馈对齐(控制策略调优): 相反,若 Policy Head 输出的直觉动作 z 经过 FDM 推演后,得出的下一帧特征是水渍被成功擦除。此时,IDM 进一步通过前后时序的结构变化 “由果推因”,推理出若要完美擦除水渍,最优的动作特征应该是幅度比 z 大 10° 的 z'。通用大脑的直觉系统随即进行策略对齐,主动拉近 z 与 z' 的距离,强制控制序列向这个能效更高的幅度和轨迹靠拢。

通过正逆动力学(FDM 与 IDM)在隐空间内的一拉、一推,MWA™ 在机器人真正触碰物理世界之前,就为其划定了高确定性的动作禁区与推荐区间,让动作的输出更准确、更连贯,从而大幅拓宽了多场景的泛化边界。

AnyPhys for RL:行业首创负样本核心数据体系

在构建 “长时序双向物理因果链” 隐空间世界模型的同时,MWA™ 从底层架构上原生适配强化学习机制,深度耦合强化学习训练范式,构建 “物理因果建模 + 强化学习试错 + 边界认知进化” 的全新具身智能进化逻辑。

目前,行业数据集普遍存在 “重正轻负、样本单一” 的共性问题,绝大多数由纯粹的正样本构成,或仅掺杂极少量的负样本。单一的样本结构无法支撑强化学习所需的稠密奖励训练,模型缺少多维度样本对照与边界约束,面对真实工况中的异常扰动时,极易因认知缺失陷入决策瘫痪、泛化能力不足。针对这一核心痛点,无界动力首创 AnyPhys 负样本核心数据体系,将深层负样本、细粒度边界失稳样本、用于策略对齐的次优样本与基准正样本深度交织,构建出高信息稠密性的物理边界坐标系,补齐了强化学习稠密训练所需的全维度样本短板。

无界动力摒弃传统单一最大化成功奖励的模式,建了一套自动区分正、负、次优、边界样本的方法论,实现强化学习的复杂稠密奖励设计。无需额外人工标注,可充分复用带瑕疵的演示数据,显著增强机器人实操精度与泛化能力。例如在精密接插类任务中,基于机器人位姿搭建全局空间图,以末端三维距离为运动代价,求解抵达目标的最短路径,借助剩余路径距离量化动作进度,清晰辨别前进、倒退、停滞状态,实现自动对样本进行打分和分类。算法兼容离线模仿加权、在线稠密奖励两类训练场景,在高精密插接任务实测中,噪声数据下任务成功率最高提升 5 倍。

目前,AnyPhys 已累计沉淀数万条专属失败、失稳、临界边界样本,构建起覆盖绝大多数工业、商业及生活场景的物理失效知识库。依托该体系,无界动力得以通过海量打滑、磕碰、飞溅等失败轨迹反向推演物理临界阈值,精准建模不同工况下的物理稳定域,让每一次动作决策都有清晰的物理安全边界作为支撑。

刷新具身智能权威榜单评测纪录,多元场景泛化能力大幅跃升

任何技术的创新,都要卸下实验室的滤镜,去接受多元场景应用的检验。在具身智能领域的权威评测基准 RoboCasa GR1 TableTop 中,无界动力与中科院自动化所 - 深度强化学习团队联合发布的首个隐空间世界模型 MWA™ - WALA 以 75.2% 的平均任务成功率刷新行业纪录、斩获全球第一,超越英伟达 GR00T-N1.6、大晓机器人 ACE-EGO-0、小鹏 DIAL、高德 ABot-M0 等行业主流模型。

作为由斯坦福大学等顶尖机构联合发起的、业界公认的具身操作核心评测赛场之一,RoboCasa 涵盖多种非标厨房环境及交互物件,囊括了长时序复合流程、受限空间物件拿取等 24 项高难度任务,并搭配了全域随机化光影、杂物干扰、物体规格变动等严苛的测试条件。

实测数据显示,MWA™ - WALA 相比第二名模型任务成功率提升 2.4% ,同时在多步骤连贯操作、受限空间物件拿取、零散物件精准拾取等高频难点任务中表现尤为突出。这一具有含金量的成绩表明,MWA™ - WALA 具备更强的场景泛化能力,同时以实测数据验证了无标签海量数据训练在攻克具身通用大脑泛化瓶颈、推进多元场景应用中的实际价值。

结语

无界动力在持续探索前沿技术的同时,始终聚焦于依托具身智能 “通用大脑” 与 “操作智能” 创造真实的商业价值。

随着第二代机器人 K15 的批量投产,其软硬一体方案不仅成功切入 ZF LIFETEC、欧摩威集团等头部汽车产线,更与顶级能源科技企业远景科技签署超 5 亿元面向海外市场的全球规模化部署与联合研发合作,创下具身操作智能领域首个亿元级国际订单。

同时,无界动力已成功走入国内外知名连锁咖啡品牌等消费巨头,在商业服务与零售领域的开放、动态的环境中,将前沿技术切实转化为创造商业价值的现实生产力。截至目前,无界动力已签署总额近 1 亿美元的全球订单。

而在场景更为多样的家庭环境中,面对众多的物品与复杂的日常交互,无界动力机器人将技术触角深入到了更加微观的日常真实世界,展现出了细腻的物理常识与自主决策能力,从容应对长周期的多步骤连续推演挑战,在复杂的动态多任务中展现出更强的自适应泛化能力。

当机器人真正拥有了在隐空间中理解物理因果的具身通用大脑,它们将不再是固定程式的自动化工具,也不再是靠海量数据堆砌、靠概率分布模仿的经验主义者,而是能够理解物理世界规律、可触类旁通、能持续进化的通用生产力,自此作为驱动全球产业发展的智能基础设施,真正拉开通用智能时代的宏大序幕。