50条数据跑赢π0.5，蚂蚁灵波这篇RSS你信吗

怎么让机器人不只会执行指令，还能预判动作的后果？蚂蚁灵波这篇中稿RSS 2026的论文，给的答案是，因果世界模型。

RSS是机器人领域公认最top的会议，类比CV领域的CVPR、NLP领域的ACL。国内具身智能公司能中稿的极少，是真在学术最硬的擂台上打下来的一局。

论文的核心是LingBot-VA，一个自回归的视频-动作世界模型，简单说就是让机器人不是“看到什么就做什么”，而是边预测环境接下来会怎么变，边决定下一步动作。

举个例子，让机器人先打开右边的盒子，关掉，再打开左边的盒子。两个盒子长得一模一样，关掉后的右边盒子和没打开前没区别。没有记忆的机器人会懵，它分不清这是第一次还是第二次看到这个状态，于是卡在循环里。

LingBot-VA解决了这个问题，它在执行任务时持续预测几秒后的画面，根据预测输出动作指令，并且用真实环境的反馈不断修正自己。论文里的对比很直观，同样的任务，主流基线π0.5反复卡壳，LingBot-VA一路做完。

根据论文的数据，在RoboTwin 2.0的50个双臂任务中，LingBot-VA在简单和困难设置下分别达到92%和91.1%的成功率。真实世界里，面对制作早餐、拾取螺丝、叠衣物等6项高难度任务，它只需要50条真实示范数据就能适配，整体成功率比π0.5高出20多个百分点。

这个说法放在真实部署里到底能不能站住脚？做具身的朋友，你们怎么看这篇？

DC娱乐网

50条数据跑赢π0.5，蚂蚁灵波这篇RSS你信吗

热门分类