釜山国立大学、昌原国立大学：让AI大脑学会"反复思考"的新方法

这项由韩国釜山国立大学数据科学系、工业工程系与昌原国立大学人工智能工程系联合开展的研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605.11011v1，感兴趣的读者可通过该编号查阅完整原文。

你有没有遇到过这样的情况：第一次看一道题，脑子里冒出的答案感觉不太对，但如果再多想几秒钟，重新检查一遍，答案就会更准确？人类大脑天生就有这种"再想想"的能力，但当前的AI大语言模型（也就是那些能和你对话的大型AI，比如ChatGPT背后的系统）却大多只能"一遍过"——输入问题，内部处理一次，输出答案，没有机会像人一样反复斟酌。

这篇论文的核心贡献，就是提出了一套叫做**LoopUS**（全称：Looped Depth Up-Scaling，循环深度提升缩放）的方法，让一个已经训练好的普通AI模型，通过一种聪明的改造方式，获得"反复思考"的能力——而且不需要从头重新训练，也不需要增加模型的参数数量。

在正式展开之前，先打一个贯穿全文的比方。假设AI模型是一条流水线上的工人，负责把原材料（用户的问题）加工成成品（答案）。普通的模型就像一条直线型流水线，原材料从左进，经过一道道工序，从右出来，全程不能返工。而LoopUS要做的事，就像把流水线中间最关键的那段"精加工车间"改造成一个可以循环运转的圆形传送带，让半成品在精加工区多跑几圈，直到质量达标才送到最终出口。这个"让半成品多跑几圈"的过程，就是本文的核心机制。

一、AI为什么需要"反复思考"，现有方法又差在哪里

要理解这项研究的价值，先要弄清楚AI模型在回答问题时到底发生了什么。现代大语言模型的内部是由很多层"变换器模块"堆叠而成的，每一层都会对输入的信息进行一次加工，把它变成更有意义的内部表示（研究者称之为"隐藏状态"）。你可以把这些层想象成一栋楼里从一楼到顶楼的每一个楼层，信息从一楼进入，经过每层的处理，到顶楼变成最终答案。

让AI"多想"的最直观方法，就是在生成答案之前先让它写一大段推理过程，也就是所谓的"链式思考"。这就像强迫工人先写一份施工日志再交工，确实能提升质量，但代价是大量的时间和计算资源花费在生成这些文字上，而且这段推理文字本身也可能出错。

另一种方向是"循环计算"：与其让模型写更多文字，不如让模型内部某些层重复运行多次，在不输出任何额外文字的情况下，悄悄在内部把答案磨得更精准。这就好比工人不写日志，而是把同一个零件在精加工区反复打磨几遍，最终交出来的成品质量更高，但外人看不出他花了多少功夫。这种方式叫做"潜在空间计算"，因为所有的反复推敲都发生在AI的内部表示（潜在空间）里，不体现在输出的文字上。

循环计算的问题是，从零开始训练一个原生支持循环的模型，在当今的规模下代价极其昂贵。于是有研究者尝试把已有的模型改造成循环形式，但之前的改造方法存在三个明显缺陷：第一，没有人知道该把哪几层拿出来循环，只能靠猜；第二，把本来只跑一遍的层强迫跑多遍，会导致内部信息越来越偏离正轨，就像一首歌被一台坏了的复读机反复播放，每次都有一点失真，最终面目全非；第三，训练时要追踪所有循环步骤的梯度，计算量大得令人头疼，而且容易出现梯度爆炸或消失的问题，让训练过程极不稳定。

LoopUS就是专门针对这三个问题设计的解决方案。

二、AI内部的"三段式流水线"：发现大模型的隐藏规律

研究团队在动手改造之前，先做了一件很有意思的侦查工作：他们把一个已训练好的模型（Qwen3-1.7B）的内部状态拿出来仔细观察，看看信息在不同层之间究竟是怎么流动的。

他们的观测方法是计算相邻两层之间隐藏状态的"余弦距离"——这是一种衡量两个向量方向差异的指标，可以简单理解为：两层的处理结果差异越大，距离越大；差异越小，距离越小。

观测结果很有规律：模型最开始的几层，距离非常大，说明输入的原始文字在这里被剧烈改造，快速变成了更抽象的内部表示。接着是漫长的中间层，距离变得很小且非常稳定，说明信息在这里只是被缓缓精炼，变化平缓，就像在一个安静的水池里慢慢沉淀。到了最后几层，距离突然又急剧增大，说明信息在这里被猛地推向输出词汇的空间，做好"开口说话"的准备。

用PCA（主成分分析，一种把高维数据压缩成可视图形的工具）把这些内部状态画出来，就能看到非常清晰的三段式轨迹：早期层的点迅速跳离起点，中间层的点在一个有限的区域里绕着弧线缓缓移动，末尾层的点则猛地奔向一个新的方向。

这个发现与国际上其他研究团队的独立成果高度吻合——无论是麻省理工学院还是韩国Upstage公司的研究者，都观察到了类似的"中间层平台期"现象。这说明大型语言模型天然就存在一个可以被反复利用的"稳定中间区间"。

有了这个发现，研究团队就有了非常充分的理由来做一件事：把模型在结构上切成三段——负责把原始文字变成抽象表示的"编码器"、负责反复精炼信息的"推理块"、以及负责把精炼后的表示变成最终答案词汇的"解码器"。这三段的分界线，正好选在距离曲线变化最剧烈的那两个地方，即整条距离曲线上出现"拐弯"的位置。

以Qwen3-1.7B为例，研究团队将第0到第1层设为编码器，第27层设为解码器，中间剩余的全部层构成可循环的推理块。对于更大的Qwen3-8B，编码器是第0到第5层，解码器是第35层，中间的大段层构成推理块。这种基于数据的划分方式，从根本上解决了"该循环哪些层"这个此前只能凭猜测解决的问题。

三、防止"反复打磨反而越磨越坏"的选择性闸门

流水线被切成三段之后，真正的挑战来了。推理块本来是被训练成"只跑一遍"的，现在要让它反复跑多遍。问题在于，每跑一遍，它产生的输出都会成为下一遍的输入。如果这个过程是无约束的，误差就会像滚雪球一样越积越大——第一遍有一点点偏差，第二遍把这点偏差当成正常输入放大，第三遍再次放大……最终内部状态就会彻底偏离正轨，模型输出的答案反而越来越差。

研究团队把这种现象叫做"隐藏状态漂移"，并专门设计了一个"选择性闸门"机制来应对它。

这个闸门的工作原理可以用调音台来理解。假设推理块每运行一遍，就相当于调音师提出了一个新的混音建议。选择性闸门不是直接采纳这个建议，而是根据当前声音的状态，决定这个建议被采纳多少比例、原来的声音保留多少比例，然后把两者混合成新的声音。

在数学上，这个混合操作是这样实现的：首先，计算推理块这一次的输出与上一次状态之间的差值（相当于调音师的"调整量建议"），然后用一个可学习的参数矩阵把这个差值映射成一个正数（就是建议调整的幅度）。接下来，利用一个固定为负数的衰减系数，把这个幅度通过指数函数压缩到0到1之间，得到一个叫做"α"的混合比例。最终，下一步的状态等于α乘以推理块的新建议，加上(1-α)乘以当前保留的旧状态。

由于α严格在0到1之间，这个混合操作永远是一个"凸组合"——新状态必然落在旧状态和新建议之间的某个位置，绝对不会跑到两者之外的极端区域。这就相当于给每一步都加了一个减震器，防止状态突然跳跃太大。

研究团队把这个设计与一个叫做Mamba的序列模型中的输入依赖衰减机制相联系，因为两者在设计哲学上高度相似：都是让模型根据当前输入的内容，自适应地决定保留多少旧信息、引入多少新信息，而不是用一个固定的混合比例生硬地处理所有情况。不同的是，Mamba的这套机制作用在序列的时间维度上（处理一串文字时，决定记住多少历史），而LoopUS的闸门作用在循环的深度维度上（决定每次迭代保留多少上一轮的状态）。

四、让训练不崩溃的"随机抽查"监督策略

假设推理块要循环运行20遍，训练时是否需要追踪全部20遍的梯度呢？如果是，那不仅需要巨大的显存，而且20层反向传播叠在一起极容易出现梯度爆炸——就像一条橡皮筋被拉得太长，最终断裂。

研究团队采用的解决方案叫"随机深度监督"。具体做法是：在每次训练时，模型照常把推理块循环运行B遍（默认是20遍），但不是对全部20遍都计算损失和梯度，而是从中随机抽取K个位置（默认是5个），只在这几个随机抽到的位置上计算损失、反向传播、更新参数。其余未被抽到的步骤虽然照常向前运行（以保证状态的连续性），但运行时"关掉梯度追踪"，并在传给下一步之前把状态从计算图中"断开"，让后续的反向传播无法追溯到这一步。

用一个贴切的比喻来说：这就像一个音乐学院的期末考核，老师不是对学生每天的练习都打分，而是在整个学期中随机抽几天来听，根据这几天的表现来评判进步程度。学生知道自己随时可能被抽查，就必须每一步都练好，而不只是在考试前临时抱佛脚。这种策略不仅大幅降低了训练的显存消耗，还让模型学会了在任意循环深度处都能输出良好的预测，而不是只有在走完全部20步之后才能表现好。

五、让AI学会"差不多了，停下来"的置信度预测头

循环多少遍才算够？如果问题很简单，也许循环2遍就够了；如果是复杂的推理题，可能需要循环8遍甚至更多。研究团队设计了一个轻量级的"置信度预测头"，让模型能在每次循环结束时自己判断：现在的状态是否已经足够好，可以停下来了。

这个置信度头是一个非常简单的小模块，它接收当前的隐藏状态，输出一个0到1之间的概率值。如果这个概率值超过了一个预设的阈值，模型就停止循环，直接用当前状态生成答案；如果还不够高，就再跑一遍推理块，再检查一次。

训练这个小模块的方式很直观：在每个随机抽查的循环位置，计算模型当前状态下预测的下一个词是否正确，把这个正确率作为"目标置信度"，然后训练置信度头去预测这个正确率。这样，置信度头就学会了一件事：看到当前的内部状态，就能估算出"现在的状态到底能答对多少题"。

在实际推测时，这个机制让不同难度的问题获得不同的计算资源——简单问题早早停下，复杂问题多跑几轮，真正做到了"按需分配算力"。研究发现，在最大循环预算设为8的情况下，模型平均只需要3.39次循环就能停下来，却仍然保持了接近最优的性能。

六、训练时的总体损失函数：三个目标一起优化

每次在随机抽查的位置上，模型都会同时优化三个目标。

第一个目标是语言模型预测损失：用当前循环位置的隐藏状态经过解码器预测下一个词，计算预测结果与真实下一个词之间的交叉熵损失。这是最基础的语言建模目标，驱动模型在每个循环深度都能给出好的预测。

第二个目标是单调性损失：这个目标要求每次循环必须让预测变得更好，而不能更差。具体实现方式是：计算当前循环位置的预测损失与上一个位置的预测损失之差，把这个差值输入一个叫做SiLU的激活函数（SiLU在正数时输出正值，在负数时输出小的负值）。如果循环后预测变差了（差值为正），SiLU输出正的惩罚；如果变好了（差值为负），SiLU只输出一点点奖励而不会主导整个训练。研究团队对比了ReLU、SELU、SoftPlus等多种激活函数，发现SiLU在这里表现最稳定：它既能有效惩罚退步，又不会让这个奖励信号压过主要的语言建模目标。

第三个目标是置信度损失：训练置信度头用当前的正确率作为学习目标，确保它能准确估计"现在该不该停"。

这三个损失被简单相加，在每个随机抽查位置共同反向传播，驱动模型、闸门参数、置信度头同时进步。

七、实验结果：改造前后，模型能力变化了多少

研究团队在五个不同大小的预训练模型上测试了LoopUS，分别是Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Phi-4（14B参数），以及一个小模型TinyLlama（1.1B参数）。所有模型都在一个叫做FineWeb-Edu的高质量教育文本数据集上进行后训练，训练数据量为30亿个词（tokens），序列长度1024，使用AdamW优化器和余弦学习率调度。

在语言建模能力上，改造后的模型在WikiText困惑度（衡量语言模型预测文本流畅程度的指标，越低越好）上平均下降了17.4%，在LAMBADA困惑度（需要理解较长上下文才能预测最后一个词的测试）上平均下降了21.3%。困惑度下降，说明模型预测文字的能力有了实实在在的提升。

在七个推理和常识理解任务（包括MMLU知识问答、HellaSwag常识推理、ARC-Easy和ARC-Challenge科学推理、PIQA物理常识、WinoGrande指代消解、OpenBookQA开卷问答）的零样本准确率上，四个被测模型的平均准确率提升了1.6到2.2个百分点。

提升幅度因任务类型而异：在需要多步推理和决策的任务上（如ARC-C、PIQA、WinoGrande、OpenBookQA），改善最为明显；在主要考查广博知识记忆的任务（如MMLU）和已经很强的单遍预测任务（如HellaSwag）上，提升相对有限。这个规律支持了研究团队的核心假设：LoopUS最擅长帮助模型在需要"多想几步"的问题上提升表现，而不是给所有任务都提供均等的增益。

在训练效率的对比上，研究团队专门把LoopUS与两篇先前的相关工作在TinyLlama上进行了对比。McLeish等人（2025年）的方法使用了520亿个tokens的训练数据，改造后平均准确率反而下降了2.9个百分点；Bae等人（2025年）使用了600亿个tokens，改造后平均准确率提升了3.5个百分点。而LoopUS只用了30亿个tokens（前者的约1/17到1/20），改造后平均准确率提升了6.3个百分点。这说明LoopUS在数据利用效率上有显著优势，能以更少的训练成本换取更大的性能提升。

八、循环多少遍才好：递归深度的详细分析

研究团队用Qwen3-4B的LoopUS改造版本做了一个专门的实验：把推理时循环的次数从1次一直增加到100次，观察模型在LAMBADA、ARC-E和WikiText上的表现如何随循环深度变化。

结果显示，模型的表现在前几次循环内就迅速提升，到大约5到10次时基本达到稳定的峰值，之后再继续增加循环次数，性能不再提升但也不下降——曲线进入一个平坦区域，而不是像未做稳定性处理的方案那样在多次循环后开始崩溃。更有意思的是，即使在循环40次、80次、100次这样远超训练时的20次循环上限的情况下，模型仍然保持了稳定的表现，没有出现"超出训练范围就失效"的现象。

开启自适应停止机制后，模型平均只需3.39次循环就停下来，性能仍然接近峰值。这意味着在实际使用中，大多数问题只需要极少的额外循环，只有少数复杂问题才会用满更多循环预算。

九、内部状态的轨迹：能看见AI"越想越准"的过程

研究团队还做了一组很直观的可视化实验，用主成分分析把Qwen3-4B在处理"32 * 64 ="这个问题时的内部状态轨迹画出来。

图形显示，从循环第0步到第1步，隐藏状态在潜在空间里发生了最大幅度的跳跃；此后每一步的位移越来越小，曲线慢慢收缩，最终聚拢在一个稳定的区域附近。这条轨迹就像一个球从高处滚下来，最初的加速滚动逐渐减慢，最终停在山谷的最低点——这正是一个收敛过程应有的样子。

与此同时，研究团队还记录了模型在每个循环步骤中对下一个词的预测概率分布。在循环第0步时，正确答案"2"（32×64=2048，第一个数字是2）的预测概率只有2.17×10??%，几乎可以忽略不计。经过一次循环之后，这个概率跳升到81.9%；到第4次循环时，概率进一步稳定在89.8%。与此同时，其他错误候选词的概率从第一步到第二步就几乎全部消失，说明模型的内部状态在第一次循环中就完成了最关键的"纠偏"。

这些可视化结果从微观层面印证了LoopUS确实在做真正有意义的迭代精炼，而不是在做无意义的重复计算。

十、把每个组件都拆下来试试：消融实验的发现

为了验证LoopUS各个组件各自的贡献，研究团队做了一系列"把某个部件拆掉看会发生什么"的实验，统一观察训练过程中语言模型损失的变化曲线。

去掉选择性闸门之后，训练最终收敛到的损失值明显更高，说明没有闸门的保护，模型确实发生了状态漂移，循环的效果大打折扣。去掉编码器-解码器的三段式分解之后，损失值同样更高，说明随意让哪段层都去循环的做法不如有针对性地只循环中间的推理层。关掉随机深度监督改为全部步骤同步反向传播之后，优化过程明显不稳定，收敛速度大幅变慢，即使最终损失相近，训练的可靠性也大为降低。把衰减式闸门换成Sigmoid式闸门之后，训练稳定性下降，最终损失也更高，说明衰减风格的闸门在这个场景下更适合。在单调性损失的激活函数对比中，SiLU比ReLU、SELU和SoftPlus都更稳定。把随机深度监督换成截断时间反向传播（TBPTT）之后，计算代价更高，最终收敛到的损失值却更差，效率和效果都不如LoopUS的方案。

上述六组对比实验清楚地说明，LoopUS的每一个设计决策都在为整体性能做出实质性的贡献，没有哪一个是可有可无的装饰。

十一、KV缓存加速：循环计算不等于慢计算

有一个很自然的担忧：循环运行推理块，不是会让每次生成一个词都要重新把整个推理块跑很多遍吗？这难道不会让速度慢得无法接受？

研究团队为LoopUS专门设计了一套KV缓存（键值缓存）机制来解决这个问题。在标准的语言模型中，KV缓存的作用是：在自回归生成文字的时候（每次生成一个词），不需要重新处理之前已经处理过的所有词，只需要处理最新的那个词，同时把历史词的信息存在缓存里复用。

在LoopUS中，由于每个循环深度的隐藏状态是不同的（第3次循环输入推理块的状态与第5次循环输入推理块的状态不同，即便用的是同一组参数），研究团队为每个循环深度分别维护了独立的KV缓存。这样，在生成文字的过程中，已处理的前缀信息对每个循环深度都只需计算一次，后续每次生成新词只需处理最新的那个词并更新缓存，大大节省了重复计算。

实测结果表明，在生成1024个词的情况下，KV缓存让Qwen3-1.7B的推理速度提升了1.64倍，Qwen3-4B提升了2.31倍，Qwen3-8B提升了2.49倍——模型越大，缓存的效益越明显。

归根结底，LoopUS不是一个让AI"慢慢想"的方法，而是一个让AI"聪明地想、快速地想"的方法：通过自适应停止决定想多少步，通过KV缓存让每一步尽量快，两者结合，在性能和速度之间取得了很好的平衡。

这项研究的意义，不只是"让AI答对了几道多选题"那么简单。它证明了一件更深层的事：一个已经训练好的AI模型，其内部并不是一个铁板一块的黑盒，而是具有内在的功能分区——有负责初步理解的区域，有负责深度加工的区域，有负责最终表达的区域。LoopUS利用了这个内在结构，以最小的额外代价（不增加参数，不重新预训练，只需要30亿tokens的后训练）把模型的推理能力拉升了一个台阶。

当然，这项研究也坦诚地指出了自己的局限：目前所有实验都只在纯文字的语言模型上进行，没有测试多模态（文字+图像）的情形；训练的上下文长度只有1024，没有覆盖需要长篇推理的数学证明类任务；训练数据量仍然偏小，更大规模的验证还有待开展。此外，把LoopUS与指令微调、强化学习偏好优化等现代AI训练流程结合起来，也是一个值得深入探索的方向。

对于任何对AI工作原理或AI能力边界感兴趣的读者来说，这项研究提供了一个相当直观的视角：AI的"思考"不一定要体现在它说了多少话，也可以体现在它内部悄悄打磨了多少遍。有兴趣深入了解所有技术细节的读者，可以通过arXiv编号2605.11011检索完整论文。

---

Q&A

Q1：LoopUS改造模型需要重新从头训练吗？

A：不需要从头训练。LoopUS是一种后训练框架，作用于已经训练好的预训练模型。它只需要在现有模型的基础上进行约30亿tokens的后训练适配，远少于从零训练一个循环架构模型所需的计算量。模型的原始参数和结构保持不变，只是增加了选择性闸门参数和置信度预测头，并通过随机深度监督完成适配训练。

Q2：LoopUS的选择性闸门和普通的门控机制有什么不同？

A：普通的门控机制（比如LSTM里的门）通常使用Sigmoid函数在多个候选值之间做加权，属于"Softmax式"的归一化选择。LoopUS的选择性闸门采用的是"衰减式"设计，通过一个固定为负数的可学习衰减系数，经过指数运算得到严格在0到1之间的混合比例。这种设计与Mamba序列模型中的输入依赖衰减机制在哲学上一致，更适合需要控制状态保留程度的迭代精炼场景，在实验中比Sigmoid式门控更稳定。

Q3：LoopUS的自适应停止机制在实际使用时有多大作用？

A：在Qwen3-4B的实验中，最大循环预算设为8次，开启置信度自适应停止后，模型平均只需3.39次循环就会停下来。这说明大多数问题在少量循环后置信度就已达到阈值，只有较难的问题才会用满更多预算。这种按需分配算力的机制让LoopUS在实际部署中既能保持性能，又避免了对所有问题都无差别地执行最大循环次数带来的计算浪费。