DC娱乐网

50条数据跑赢π0.5,蚂蚁灵波这篇RSS你信吗

怎么让机器人不只会执行指令,还能预判动作的后果?蚂蚁灵波这篇中稿RSS 2026的论文,给的答案是,因果世界模型。

RSS是机器人领域公认最top的会议,类比CV领域的CVPR、NLP领域的ACL。国内具身智能公司能中稿的极少,是真在学术最硬的擂台上打下来的一局。

论文的核心是LingBot-VA,一个自回归的视频-动作世界模型,简单说就是让机器人不是“看到什么就做什么”,而是边预测环境接下来会怎么变,边决定下一步动作。

举个例子,让机器人先打开右边的盒子,关掉,再打开左边的盒子。两个盒子长得一模一样,关掉后的右边盒子和没打开前没区别。没有记忆的机器人会懵,它分不清这是第一次还是第二次看到这个状态,于是卡在循环里。

LingBot-VA解决了这个问题,它在执行任务时持续预测几秒后的画面,根据预测输出动作指令,并且用真实环境的反馈不断修正自己。论文里的对比很直观,同样的任务,主流基线π0.5反复卡壳,LingBot-VA一路做完。

根据论文的数据,在RoboTwin 2.0的50个双臂任务中,LingBot-VA在简单和困难设置下分别达到92%和91.1%的成功率。真实世界里,面对制作早餐、拾取螺丝、叠衣物等6项高难度任务,它只需要50条真实示范数据就能适配,整体成功率比π0.5高出20多个百分点。

这个说法放在真实部署里到底能不能站住脚?做具身的朋友,你们怎么看这篇?