AI 正在学习理解真实世界,人工智能正朝着世界模型(world model)发展,这是一种让 AI 能够理解并模拟现实世界运行规律的技术。例如谷歌推出的 Project Genie,只要输入一张图片或几句文字,就能生成可交互的虚拟世界,用户甚至可以在其中自由探索。 研究者认为,未来无论是人形机器人外出购物,还是自动驾驶汽车行驶在复杂道路上,都需要这类世界模型来理解环境。这一概念早在上个世纪就已被提出,核心思路是让系统先在脑中的小型模型里模拟场景,再决定如何行动。 目前主要有几条技术路线:利用视频生成技术构建模拟世界、建立完整的 3D 空间模型,以及让 AI 以抽象方式理解各类环境。 不同研究者对世界模型的实现路径看法不同。有人认为需要构建精确的 3D 虚拟世界,让 AI 可以稳定交互并持续运行;也有人认为大语言模型本身其实已经隐含了某种世界理解能力——例如有研究发现,语言模型即便没见过棋盘,也能在神经网络内部形成对棋局的抽象表征。 不过批评者指出,语言模型只是擅长描述世界,未必真正理解物理现实。无论最终采用哪种技术方向,AI 从处理文字、图像走向理解真实环境几乎已成定局,而构建可靠的世界模型,或许会是让 AI 真正走进现实世界的关键一步。
