AI 已经能看懂图像、生成场景,甚至在虚拟环境中规划行动。
但当一个智能体真正进入空间之后,一个更关键的问题会出现:它看到的只是眼前一角,却必须理解整个世界。
门在身后,杯子被遮挡,沙发只露出一部分,刚才经过的区域已经离开视野。当前画面只能提供局部线索,无法支撑长期、稳定的空间理解与世界建模。
这意味着智能体不能只依赖瞬时观测,而必须在内部形成一个稳定、可更新、可推理的空间表征,来支持后续的推理与生成。
近日,来自中国科学院自动化研究所的研究者联合多所高校发布综述论文《Spatial Intelligence from a Cognitive Map Perspective: A Survey》,以认知地图(Cognitive Map)为核心视角,重新梳理了空间智能研究。论文将传统生物导航中的认知地图概念扩展为空间智能系统中的内部表征蓝图:它连接空间感知、空间推理与空间生成,使许多原本分散的研究方向能够在一个统一的机制框架下被理解与讨论。
论文标题:Spatial Intelligence from a Cognitive Map Perspective: A Survey 项目主页:https://klingsor-tyx.github.io/spatial-cognitive-map/
论文链接:https://github.com/Klingsor-tyx/Awesome-Spatial-Cognitive-Map/blob/main/survey.pdf
GitHub:https://github.com/Klingsor-tyx/Awesome-Spatial-Cognitive-Map
图1:认知地图视角下的空间智能统一框架
认知地图:空间智能的表征蓝图
空间智能相关研究快速发展。空间感知从二维图像识别走向三维场景理解;空间推理从局部关系与属性判断扩展到长时序导航、多视角推断和心理模拟;空间生成也从单个对象生成发展到室内外场景生成与世界状态模拟。
随着任务越来越长程、视角越来越多、环境越来越动态,若系统只处理当前输入,前一刻看到的结构、被遮挡区域、跨房间关系和对象状态变化都会在时间中断裂。
因此,从更底层看,这些看似不同的研究方向实际上正汇聚于一个共同需求:智能体需要一种统一的内部表征机制,负责把局部观察变成可积累的空间记忆,把跨视角线索整合成全局布局,并在后续推理、生成和行动中被反复调用。于是,空间智能的核心问题就可以表述为:系统如何构建、维护、调用并实现这样一张内部空间地图?
认知地图最早来自生物空间认知研究,用于描述生物体在环境中形成的内部表征。论文将这个概念扩展为现代空间智能系统中支撑感知、推理与生成的统一内部空间表征。具体来说,认知地图由智能体从局部、碎片化的观察中逐步构建,用于整合环境中的空间结构、对象关系与动态变化。基于这一内部表征,智能体可以开展推理与规划,并进一步将其转化为外部场景、模拟结果或交互行为,从而支撑感知、推理与生成之间的统一建模。
为了让这一概念更加可操作,论文提出认知地图应同时具有三种性质:抽象性、全局性和持久性。
抽象性(Abstraction)指认知地图需要把原始感知输入转化为结构化概念。它不能只是保存像素、点云或体素,而应进一步组织出对象、属性、关系,甚至拓扑结构,完成从低层几何输入到高层空间语义的转换。全局性(Globality)指认知地图需要超越当前视野,将局部的、瞬时的、不同时间和视角下的观察整合起来,形成跨视角一致的整体空间布局。
持久性(Persistency)指认知地图是一个可以持续维护和更新的内部状态。它需要通过记忆机制记录空间信息,并在新观察到来时进行检索、修正和更新。
图 2:认知地图的三种核心性质:抽象性、全局性与持久性。
这三种性质共同回答了 “认知地图为什么能够支撑空间智能” 这一问题。只有当一种表征同时具备抽象性、全局性和持久性时,它才能超越单纯描述空间的层面,真正支撑空间智能的发展。
更重要的是,从这一视角来看,认知地图的价值在于明确了空间智能系统的基本运作模式:该系统首先需将原始观测数据抽象为结构化表征,随后整合分布在不同时间维度和视角下的局部线索,形成全局连贯的空间布局,并持续维护这一表征以支持交互过程中的反复查询、更新与验证。
认知地图视角下的空间智能统一框架
在这一框架下,空间感知、推理与生成可以看作围绕认知地图展开的三个连续过程:
感知(Perception):认知地图的内部构建推理(Reasoning):基于认知地图的推理
生成(Generation):认知地图的外部实现
感知阶段从原始传感输入中构建内部空间表征;推理阶段读取、操作并利用这一表征进行空间推断和决策;生成阶段则将内部表征外化为可见场景、三维环境或动态模拟结果。三者共同构成了空间信息在外部环境与内部系统中的循环路径。
图3:论文整体结构。空间智能被统一为认知地图的构建、推理与实现。
通过这种组织方式,认知地图从一个概念标签转化为分析空间智能的坐标系,让原本并列的感知、推理和生成任务成为围绕同一内部表征展开的不同阶段:地图被构建出来,被推理模块调用,并最终被实现为外部空间形式或预测结果。
构建认知地图:空间感知
论文首先讨论空间感知阶段,对应认知地图的构建过程。
在认知地图视角下,感知不仅需要从图像中检测物体或提取视觉特征,还要从局部、短暂、通常不完整的传感器数据中,形成一个具有抽象性和全局性的内部空间表征。这一阶段完成的是从物理世界传感数据到内部空间模型的转换,体现了从数据到认知的跃迁。
按照内部结构和信息组织方式,论文将认知地图的表征范式分为三类:
度量表征(Metric Representation)强调空间的几何结构和物理属性。它通常在语义信息的基础上显式建模坐标、距离、尺度、形状和三维布局,还可以进一步分为基于显式几何的表征(Explicit Geometry-based)与基于参数化坐标的表征(Parametric Coordinate-based),前者的常见形式包括 2D 栅格图、BEV、点云、体素等。几何一致性强,适合需要精确空间定位和空间对齐的任务。关系表征(Relational Representation)更关注对象、区域和结构之间的拓扑关系。具体形式包括结构化图表征(Structured Graph-based),以及可序列化为文本或符号的图表征(Serialized Graph-based)。这类方法通常弱化了精确几何信息,更适合表达支撑与相邻关系、可达性等拓扑结构及依赖关系,也更容易与语言模型推理机制结合。
混合表征(Hybrid Representation)则同时利用度量信息和关系信息,因为真实空间理解往往既需要几何精度,也需要关系抽象。许多方法通过层级架构(Hierarchical Architecture-based)、特征融合(Feature Fusion-based)等操作,将底层几何结构与高层关系组织结合起来,使认知地图能够同时支持空间定位、结构理解和多层次推理。
图 4:认知地图构建的三类表征方式:度量表征、关系表征和混合表征。
总体而言,认知地图从单一表征形式向度量与关系混合表征的发展演变,反映了空间智能向更加统一的内部表征体系发展的广泛趋势。
读取认知地图:空间推理
当认知地图构建完成后,其核心价值在于支持智能体进行复杂的空间推理,如路径规划、物体搜索、情境理解等。通过这一机制,空间信息得以被读取、处理,并最终转化为可执行的决策信号。空间推理可被视为由认知地图介导的推理过程,其核心要素在于推理模块如何访问、解读并利用其中编码的空间信息。
论文将基于认知地图的空间推理范式归纳为三类:
Map as Embedding 将认知地图编码为潜空间特征,使其直接参与匹配、状态传播和决策。此时地图往往被视为推理模块的内部状态,能够支持跨感知、语言和行动的高效检索、对齐与定位,但其推理过程往往不具备较高的可解释性。其中,Structural State Propagation 将空间组织为可传播的结构状态,例如在网格、图中传播不确定性、cost 或 value,从而将认知地图转化为可执行的策略信号;Latent Feature Matching 则把认知地图作为记忆空间,通过当前观察、目标或指令与地图中的区域、地标、对象或上下文特征进行匹配,以检索最相关的空间信息。Map as Prompt 将认知地图转换为文本、视觉或多模态提示,输入给 LLM 或 VLM。例如序列化为文本、结构化摘要(Textual Prompt),将认知地图渲染为视觉提示(Visual Prompt),或共同构成多模态上下文(Multimodal Prompt)。这种范式能提供更高的灵活性,并与基础模型更好地兼容,但往往伴随着信息压缩瓶颈。
Map as API 则进一步把认知地图设计为可查询、可更新、可调用的外部接口。在这种范式中,推理模块可以在运行过程中调用地图,查询对象位置、更新状态变化、检索历史记忆,或利用地图约束当前决策,具备较强的闭环交互能力,这对动态任务及长期规划任务尤为重要。其代价在于系统复杂度较高,例如涉及状态管理和工具使用。按照是否存储历史状态信息,还可以进一步分成两类:实时状态快照(Real-time State Snapshot)关注当前环境状态的即时维护与更新,持久化空间记忆(Persistent Spatial Memory)则强调跨时间积累和空间经验复用,使系统能够保存历史观察、事件记录和长期交互结果。
图 5:认知地图支持推理的三种范式:Embedding、Prompt 与 API。
从这一脉络看,空间推理能力不仅取决于模型本身,也取决于内部地图以何种方式参与推理,依赖于推理模块如何访问、解释和操作认知地图。
外化认知地图:空间生成
如果说感知是从外部世界到内部认知地图,那么生成可以被看作反向过程:从抽象、全局统一、持久维护的内部空间表征出发,实现或模拟具体的外部空间形式。在此阶段,生成不是凭空想象,而是将内部空间知识(如布局、关系、属性)外化为可见或可交互的空间结果,完成从抽象到具象的表达,论文将这一部分分为两类:
静态场景合成(Static Scene Synthesis) 关注如何利用认知地图中的布局、对象语义和拓扑关系等结构先验,生成具体的三维场景。认知地图可以作为检索蓝图,引导系统从资产库中选择物体并约束布局(Map-based Retrieval);也可以作为生成模型的条件输入,使模型端到端地生成符合空间关系和功能约束的场景(Map-to-Scene Generation)。动态世界模拟(Dynamic World Simulation) 侧重时空演变的模拟,强调认知地图作为一个可持续更新的内部状态存储。生成模块需要基于它维持空间连续性,模拟场景的动态演化,并保持时序上的一致性。
图 6:空间生成的两种范式:静态场景合成与动态世界模拟。
现有研究呈现从静态实现到动态模拟、从场景合成到世界建模的基本趋势,这一趋势表明认知地图正从空间组织先验演变为持久的生成性基础结构,不仅支持结构化场景合成,还能支持未来状态预测、连贯可交互世界的模拟。
应用:从理解世界到改变世界
在应用层面,论文根据智能体与系统之间的交互方式,将相关任务分为两类:开环空间认知和闭环空间交互。
开环空间认知:系统主要进行观察、理解、回答或生成,而不需要实时改变外部环境。论文讨论的代表任务包括空间问答、室内场景合成和开放世界生成。在这些任务中,认知地图主要起到结构化桥梁作用:它把分散的视觉输入、语言意图和空间结构组织起来,使系统能够超越单一视角和局部输入进行空间理解。闭环空间交互:要求智能体在持续的感知 — 行动循环中使用和更新认知地图。代表任务包括具身导航和具身操作,在这一类任务中,认知地图不只是被动存储空间信息,而是不断被行动结果检验和修正。智能体需要根据新观察更新地图,根据地图选择行动,并在行动过程中持续处理遮挡、变化和不确定性。
图 7:基于智能体—系统交互方式的两类应用范式:开环空间认知与闭环空间交互。
从认知地图看空间智能的下一步
从认知地图视角来看,空间智能的未来问题就不只是把地图做得更大,而是让它更懂语义、更能跨尺度、更能长期更新,并真正进入行动闭环。基于认知地图的核心特性与运作机制,论文总结了空间智能系统仍需突破的几个关键方向。
更深层的语义抽象。当前许多认知地图仍主要停留在对象类别和基本空间关系层面。未来的地图节点需要表达对象身份、物理属性、状态、功能和可供性;地图边也需要从简单的位置关系,扩展到物理约束、交互逻辑和因果机制。扩展全局空间理解。现有模型在局部空间关系上已有进展,但对于大尺度环境结构、房间连接、对象共现和未观测区域补全,仍缺少稳定的空间先验。未来需要面向大规模三维场景和地图的空间基础模型,帮助智能体从稀疏局部证据中推断全局空间骨架。
动态环境中的长期持久性。真实空间是动态的:物体会移动,布局会变化,旧信息可能失效。未来的认知地图需要发展为 4D 时空表征,通过主动遗忘和结构化巩固,区分短期变化与长期背景,从而支持持续运行中的空间维护。
认知地图作为生成式模拟器。认知地图应从空间信息仓库扩展为面向未来推理的动态引擎。它可以支持未观察区域补全、未来状态预测和反事实推演,使智能体能够在内部概念空间中进行模拟。
弥合感知与行动之间的鸿沟。当前许多地图模块仍偏向被动记录环境,而没有充分参与行动决策。未来的空间智能系统需要让认知地图中的不确定性、预测误差和盲区主动影响智能体行为,使建图和行动形成更紧密的闭环。
结语
这篇综述从认知地图的视角重新梳理了空间智能的研究,并强调其背后共享的表征机制:空间信息如何被抽象、整合并持续维护,又如何进一步参与推理、决策和生成。由此,不同研究方向能够围绕同一个问题被重新比较:智能体如何构建和使用内部空间表征,将其转化为外部空间形式或行为结果。
从这一视角看,空间智能应走向一种更统一的系统形态。当认知地图的抽象性、全局性与持久性能够贯穿空间感知、推理与生成全过程,才能迈向真正类人甚至超过人类水平的空间智能。
作者信息:本文第一作者田雨萱,为中国科学院自动化研究所博士生,研究方向为空间智能,在 CVPR 等国际学术期刊会议上发表多篇论文,通讯作者为郑晓龙研究员。