DC娱乐网

不用视觉也能认路?大型语言模型赋能机器人

想象一下,家里的扫地机器人不用你提前规划路线,能听懂“去客厅打扫,避开地毯”的指令后自主探索环境;仓库里的分拣机器人接到

想象一下,家里的扫地机器人不用你提前规划路线,能听懂“去客厅打扫,避开地毯”的指令后自主探索环境;仓库里的分拣机器人接到“找到三号货架的红色箱子”的任务,就能精准穿梭在货架之间——这些曾经需要复杂编程的场景,如今因为大型语言模型的加入,正在一步步变成现实。

过去,机器人的建图与导航大多依赖视觉数据,不仅需要海量的图像训练素材,还容易在陌生环境中“迷路”。比如在光线昏暗的走廊、物品杂乱的房间,视觉传感器就可能“失灵”。而科学家们最新的研究发现,给机器人装上“语言大脑”,就能轻松解决这些难题。

这个“语言大脑”的核心,就是把机器人看到的环境转化成通俗易懂的文字,再让大型语言模型来做决策。麻省理工学院的研究团队开发的LangNav方法,就是先通过视觉模型将眼前的场景描述成文本,比如“前方3米有沙发,右侧是墙壁”,再把这些文字和用户的指令一起输入大型语言模型,模型就能直接预测出机器人下一步该走的方向。

更厉害的是,这种语言驱动的方式还能实现“举一反三”。传统机器人换个新环境就需要重新训练,而搭载了大型语言模型的机器人,凭借对自然语言的理解,能快速适应陌生场景。就像香港科技大学团队研发的LOVON框架,让足式机器人能在停车场、城市街道等不同环境中,精准完成“找椅子”“追行人”等复杂任务,甚至能应对画面抖动、目标丢失等突发情况。

可能有人会问,只用语言描述环境,会不会不够精准?其实科学家们早就考虑到了这一点。现在的技术都会把语言描述和视觉信号结合起来,比如CogNav框架会构建包含物体关系、导航锚点、空间布局的“认知地图”,再把这些地图信息转化为文字提示给模型,既能保证导航精度,又能降低计算成本。实验数据显示,这种“语言+视觉”的组合,比单独用视觉导航的任务完成率提升了7%,路径规划也更合理。

这项技术的突破,让机器人离我们的日常生活越来越近。未来,它不仅能让家庭助理机器人更智能,还能应用在医疗保健、野外科研等领域——比如在医院里协助护士运送药品,在偏远地区帮助科研人员探索未知环境。

从需要“看图说话”到能“听懂指令办事”,大型语言模型正在重塑机器人的导航逻辑。当机器人不仅能“看见”世界,还能“理解”世界,更多便捷、智能的应用场景,正在等待我们解锁。