高效的数据挖掘技术。
如果复杂的技术论文理解起来很难,那其实你就把智元发布的 GO-1 理解成一个高效的数据解析技术。
今天智元发布了一个具身基座大模型 GO-1。
在聊这个模型之前,我们依然要分享一下,我们如何去理解具身智能,空间智能 这些概念。
相比具身智能字面意思的好理解,空间智能相对比较抽象,具身智能强调智能体(如人类、动物或机器人)的智能行为与其物理身体的不可分割性。
智能并非仅由大脑或算法独立产生,而是通过身体与环境的动态交互形成的。智能体的感知、学习和决策高度依赖于其身体的形态、感官和运动能力。
所以一般在机器人领域会强调具身智能,这个具身不是讲是不是人形,而是能不能先给人一个和物理世界交互。
而空间智能指理解、推理和操纵空间关系的能力,包括对物体位置、方向、距离、形状和运动轨迹的认知。
最早这一概念是由心理学家霍华德·加德纳在多元智能理论中提出,它更强调如何在物理世界的做到什么能力。
并且具身智能的实现常依赖空间智能。例如,机器人需要空间认知能力才能导航,而空间智能的发展也可能通过身体与环境的交互,比如儿童通过触摸学习形状。
具身智能强调身体对智能的基础性作用,是智能的载体和实现途径;空间智能是智能的一种具体类型,侧重于空间关系的处理能力。
所以我们就理解,为啥做机器人的公司都热衷于解决通用性。
现在人工智能非常依赖传统数据的喂养,但事实上,数据的基础喂养并不是智能体成长的绝对核心,这一观点,在最近一年时间里被提及太多次了。
白话解释就是,数据的喂养是形成智能的基础,但不是智慧的基础。
比如 我们人类都是 小学、初中、高中,但同样的班级产生了 第一、第二、第三、第四、第五名。
有的同学学完一个方程,就可以 举一反三。
举一反三,就是机器人界一直追求的目标。
所以学术界和工程界都试图去搭建一个,可以形成高效数据解析的技术框架。
这个框架里 包含了 感知、规划和执行,所以可以看到这三个词其实非常难,远不是我们说出来的这么轻松。
特斯拉自动驾驶做得好,重要的要素就是他的数据收集、解析很强。
智元今天发的这个,本质上也可以这么去理解,但注意,这里面细节复杂,这么解释是为了让读者更易懂,但这并不是最终解释。
ViLLA 架构:多模态融合与分层规划
GO-1 的核心技术是Vision-Language-Latent-Action(ViLLA)架构,其设计目标是通过多模态数据的协同处理,解决传统具身智能模型在感知、规划与执行之间的割裂问题。
这里面 VLM 比较好理解了,那隐式规划器(Latent Planner)是啥玩意?
它是将VLM的感知结果转化为 隐式动作标记(Latent Action Tokens),即抽象的任务步骤链(Chain of Planning)。
例如,挂衣服 可能分解为 定位衣架→抓取衣物→调整角度→悬挂 等步骤。
通过跨本体和人类操作视频学习通用动作逻辑,而非依赖单一机器人的固定动作库。
这使得规划更灵活,能适应不同机器人形态。
这里面有个核心创新是:一脑多形 跨本体迁移
传统的技术问题是,不同机器人需独立训练模型,数据无法共享。 ViLLA的隐式规划层解耦动作逻辑与硬件参数,使同一模型适配不同机器人(如双足人形与四足机械臂)。
这个产业越高效,自动驾驶也越有希望。
人工智能