银河通用创始人兼CTO王鹤对具身智能的看法和技术路线几个核心观点:
* 具身智能发展早期,技术路线充满挑战: 王鹤认为,具身智能目前尚处于发展初期,虽然技术已初现曙光,但未来充满无限可能性。对于创业公司来说,每个关键的技术选择都像是“基于技术自信的豪赌”。
* 训练数据是行业核心难题,合成数据是高效解决方案: 机器人行业最大的问题是缺乏训练数据,且对数据路线存在巨大分歧(英伟达主推合成数据,谷歌DeepMind坚持真实世界遥操数据)。王鹤坚持采用高质量合成数据进行VLA大模型预训练,认为这种方式比大规模真实机器遥操作更高效。银河通用最新发布的Galbot机器人搭载的VLA大模型,就使用了99%的合成数据和1%的真实数据进行训练,并在复杂场景下成功展示了高精度抓取能力。
* VLA大模型是机器人“进化”的关键,实现端到端操作和泛化能力: VLA(Visual-Language-Action)大模型对机器人进化具有重要意义,它能够直接从视觉观测和自然语言指令中端到端地输出动作,无需中间产物,显著提升了机器人的扩展性和泛化能力。银河通用今年的Galbot机器人正是通过VLA大模型重构了整个系统,使其在更复杂的商超环境中能够稳定抓取多种异形包装物体。
* VLA模型需不断融入新模态以达到人类级别智能: 尽管VLA是端到端大模型的重要尝试,但目前主要依赖视觉输入。王鹤指出,要达到人类级别的具身智能,VLA模型未来还需要不断融入味觉、触觉、嗅觉、听觉以及对温度的感知等新模态。
* 聚焦“原子动作”打造产品级VLA,加速商业化落地: 银河通用VLA技术路线的重点是聚焦于通过视觉模态反馈就能完成的“原子动作”(如抓取、放置、移动、导航),并将其训练为具备跨场景、跨物体自由泛化能力的基础模型(foundational model)。这种端到端的Mobile Pick-and-Place大模型,旨在覆盖工业与商业场景中的高频任务(如搬运、分拣、补货/卸货),从而加速具身智能的商业化落地,而非追求“多样技能”但缺乏稳定性的研究模型。
* 单一大模型实现所有操作仍是未解之谜: 关于未来机器人能否用一个大模型实现所有操作,王鹤认为这类似于人脑的“快系统”和“慢系统”。VLA更接近快系统,负责快速响应和动作规划。如果任务涉及复杂的推理和动作生成交互,是否需要单一系统、双系统或层级化系统,目前没有确定答案。他指出,如果能突破大模型在快慢速度之间的切换,或许能用一个大模型类比人脑。
* 数据是VLA模型竞争的关键: 从模型架构来看,各家VLA团队的思路大同小异,但在王鹤看来,当前竞争的胜负手不在于模型架构,而在于“究竟能用哪些数据充分训练VLA”。
(来自腾讯科技最新采访)