Google DeepMind 团队(Michael C. Mozer、Shoaib Ahmed Siddiqui 、Rosanne Liu )发表了重磅论文 《The Topological Trouble With Transformers》(arXiv:2604.17121)。
论文首次针对当前大模型(如 Transformer 架构)在长文本推理、多轮对话和复杂任务中频频出现的“降智”、“精神分裂”等现象,从拓扑结构的角度给出了深刻的理论解释和破局方案。
标准 Transformer 纯前馈结构存在根本拓扑问题:无法可靠跟踪动态信念状态!随着序列推进,状态表示被推向更深层,最终浅层无法访问,导致上下文翻车、多轮不一致、长期推理失效。
论文提出 2D 分类法(深度 vs 步长循环 + 输入/循环步比例),梳理 looped Transformer、SSM/Mamba 等路径,并指出 coarse recurrence、多阶段训练等可行方向。
真正长期认知连贯性,需要修复架构,而非只堆上下文或 CoT。
长文本窗口和外显慢思考只能治标,无法让模型真正拥有低能耗且极度连贯的隐式意识流。
如果你是大模型架构设计、下一代 AI Agent 以及长序列动态系统追踪领域的从业者可以重点看看这篇工作~(论文可以直接download哦~ 👇🏻)





