[RO]《Playful Agentic Robot Learning》J Zh

[RO]《Playful Agentic Robot Learning》J Zhang, J Ge, H Yoo, L Fu… [UC Berkeley] (2026)

在具身智能领域，机器人技能的持续学习通常受困于“任务驱动”的被动模式。过去的方法依赖外部指令或预设奖励来触发学习，本质原因是缺乏一种自主发现并内化通用技能的机制，导致机器人面对新任务时无法复用历史经验，必须从零开始尝试。

本文的核心洞见是：把机器人看作在环境中自主“玩耍”的探索主体。由此，RATS 框架引入了“好奇心驱动”的任务提案与“代码即策略”的闭环演进，通过自主设定目标、执行代码、诊断失败并将其提炼为可调用的代码库，使机器人能将偶然的成功转化为永久的技能资产。

这项工作真正留下的遗产是证明了“无监督玩耍”能产出高质量、可跨环境迁移的代码技能库。它为后来者打开的新门是无需微调模型即可通过“插件式”检索提升机器人性能，但尚未跨过的门槛是受限于底层控制 API 的多样性，在处理极其复杂的精细操作和多变物理力学环境时仍存在鲁棒性挑战。

arxiv.org/abs/2606.19419 机器学习人工智能论文 AI创造营

DC娱乐网