[RO]《Qwen-VLA: Unifying Vision-Language-

[RO]《Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments》Q Wang, M Li, J Guan, J Ye… [Qwen Team] (2026)

在具身智能领域，通用控制是一个悬而未决的难题。过去的方法受困于单任务、单机器人、单环境，本质原因是动作空间、观测格式与控制约定彼此割裂。

本文的核心洞见是：把操控、导航与人体轨迹重新看作同一种未来动作预测。由此，用具身提示说明机器人身份，再用共享 DiT 动作解码器生成连续动作。

这项工作真正留下的遗产是把 VLM 从“看懂世界”推向“驱动身体”。它打开的新门是跨任务、跨机器人迁移，但尚未跨过的门槛是长程记忆、世界模型与真实闭环可靠性。

arxiv.org/abs/2605.30280 机器学习人工智能论文 AI创造营

DC娱乐网

[RO]《Qwen-VLA: Unifying Vision-Language-

热门分类