在当前的机器人研究中,有多种方法用于人对机器人的遥操作,包括基于视觉的跟踪、运动捕捉系统、VR接口和外骨骼服等。然而目前仍然没有标准化的框架来客观一致地比较这些方法。
一项来自上海人工智能实验室2025年的研究通过引入以下内容填补了这一空白,TeleOpBench评价双臂灵巧遥操作的统一基准。该基准统计了英伟达Isaac Sim中运行一致的任务并将任务成功率和完成时间作为模拟和物理环境中的主要评估指标。
遥操作接口
TeleOpBench比较了捕捉人类运动并将其传输给机器人的四种方法:
基于动作捕捉(MANUS数据手套+ Xsens)的遥操作:通过Xsens MVN套装与高分辨率的MANUS数据手套手部动作捕捉,可实现精确的肢体和手部关节运动。

基于视觉的遥操作:使用单目RGB摄像头进行人体姿势估计(SMPLer-X,MediaPipe)和反向运动学匹配。

基于VR接口的遥操作:使用Apple Vision Pro和OpenXR跟踪进行手腕和手部姿势预估。

基于外骨骼的遥操作:使用运动学对齐的外骨骼机械服进行关节测绘,搭配霍尔效应传感器手套,每只手提供15个自由度。

结果
在以上实验中,四个遥操作接口在三个商业人形平台(Unitree H1-2,Fourier GR1-T2,Unitree G1)上通过10个不同复杂性的代表性任务进行了比较。

表1:不同遥操作系统在模拟任务中的性能比较

表2:现实世界中遥操作系统跨任务执行的性能比较
在模拟和真实实验中,性能趋势保持一致。运动捕捉管线中使用MANUS数据手套和Xsens,MVN实现了最高的成功率和最快的完成时间。其在抓取、放置和双手协调方面表现出卓越的精度,具有很强的模拟到真实场景的转换能力。

外骨骼和系统性能可靠,但拥有特定的限制,如较慢的大臂运动对无遮挡环境要求较高。基于视觉的跟踪对于简单的任务表现良好,但在复杂、高灵敏的场景中却表现不佳。
为什么使用动捕控制机器人效果最好
对于具身机器人学习,人类演示的质量直接影响策略性能和虚拟到现实的转移。手指清晰度、运动平滑度和协调性的微小差异会显著影响习得的操作策略;在现实任务中的表现也是。因此,高帧率跟踪对于可靠的机器人学习至关重要。
TeleOpBench结果表明,由MANUS数据手套Xsens全身动捕系统提供的高保真手指和肢体跟踪在被评估的系统中提供了最准确和有效的遥操作数据。