谷歌重磅论文：Transformer 的拓扑困境

大模型频频在多轮对话中“断片”或前后矛盾，其根源并不在算力，而在于一个被长期忽视的硬件级底层硬伤。

Google DeepMind 团队（Michael C. Mozer、Shoaib Ahmed Siddiqui 、Rosanne Liu ）发表了重磅论文《The Topological Trouble With Transformers》（arXiv:2604.17121）。

论文首次针对当前大模型（如 Transformer 架构）在长文本推理、多轮对话和复杂任务中频频出现的“降智”、“精神分裂”等现象，从拓扑结构的角度给出了深刻的理论解释和破局方案。

标准 Transformer 纯前馈结构存在根本拓扑问题：无法可靠跟踪动态信念状态！随着序列推进，状态表示被推向更深层，最终浅层无法访问，导致上下文翻车、多轮不一致、长期推理失效。

论文提出 2D 分类法（深度 vs 步长循环 + 输入/循环步比例），梳理 looped Transformer、SSM/Mamba 等路径，并指出 coarse recurrence、多阶段训练等可行方向。

真正长期认知连贯性，需要修复架构，而非只堆上下文或 CoT。

长文本窗口和外显慢思考只能治标，无法让模型真正拥有低能耗且极度连贯的隐式意识流。

如果你是大模型架构设计、下一代 AI Agent 以及长序列动态系统追踪领域的从业者可以重点看看这篇工作~（论文可以直接download哦~ 👇🏻）

DC娱乐网

谷歌重磅论文：Transformer 的拓扑困境

热门分类