[RO]《Do as I Do: Dexterous Manipulation

[RO]《Do as I Do: Dexterous Manipulation Data from Everyday Human Videos》B Paliwal, H Etukuru, W Liang, P Abbeel… [UC Berkeley] (2026)

在机器人灵巧手操作领域，如何大规模获取高质量训练数据是一个悬而未决的难题。过去的方法高度依赖昂贵的远程操作或受限的仿真环境，本质原因是单目视频存在严重的「具身隔阂」，且难以从噪声巨大的视觉信号中提取出符合物理规律的手物交互逻辑。

本文的核心洞见是：把视频数据到机器人动作的转换看作一个「几何重建+物理蒸馏」的过程。通过将 3D 生成模型改造为引导式扩散跟踪器，系统在遮挡环境下仍能保持物体运动的连贯性；随后利用带预热阶段和随机力扰动的采样优化算法，将不稳定的视觉轨迹炼化为机器人可执行的稳健策略。

这项工作真正留下的遗产是证明了互联网海量视频可以转化为灵巧操作的「教科书」。它为后来者打开的新门是跨越视角与具身差异的通用数据生产管线，但尚未跨过的门槛是处理非刚性物体的形变操作，以及在复杂场景中进行包含环境障碍的全局感知推理。

arxiv.org/abs/2606.19333 机器学习人工智能论文 AI创造营

DC娱乐网