导读 在人工智能技术快速发展的浪潮中,大模型如何突破通用能力的局限,实现面向专业领域的深度思维,已成为当前 AI 研究与产业落地的核心挑战。尽管大模型在知识广度与对话能力上表现出色,但其在复杂指令执行、专家思维模式迁移以及工具智能调用等关键领域仍存在显著差距。本次分享将聚焦在“面向领域的大模型深度思维能力”方向的前沿探索,揭示如何通过强化学习驱动的思维链构建、结构化专家思维注入以及工具融合机制,推动大模型从“知性智能”向“理性智能”的跨越式演进,为行业提供从理论到落地的参考解决方案。
今天的介绍将围绕下面五个核心模块展开:
1. 大模型深度思维的现状与挑战
2. 专业领域应用的三大核心挑战
3. 基础模型思维能力的提升方向
4. 思维结构化框架与应用
5. 深度思考与工具调用的融合
分享嘉宾|梁家卿博士 复旦大学 青年副研究员
编辑整理|孟立诗
内容校对|郭慧敏
出品社区|DataFun
下面将与大家分享我们近期在领域大模型深度思维能力方向的一些研究进展,其中会包含两个核心要素:
"领域"维度:
如何将大模型能力有效应用于特定行业或专业场景,解决实际业务中的具体问题。这一研究方向与产业界实践需求高度契合,是当前技术落地的关键着力点。
"深度思维能力"维度:
今年 DeepSeek 提出的"先思考后回答"(Think-then-Answer)机制,通过强化学习驱动的思维链构建,实现问题理解与答案生成的解耦处理。
01
大模型深度思维的现状与挑战
1. 大模型智能的三重维度

从人类智能构成维度分析,智能可划分为三个维度:知性、感性、理性。
从深度思考能力对模型的要求而言,其实重点是往理性思考能力方面发力,包括现在让大模型做的逻辑问题、数学问题,以及在很多行业中专业问题,这超越了单纯的知识获取与表达能力范畴。
大模型强于知性、弱于感性和理性。用更通俗的话来说,大模型虽然存在幻觉,但它的知识面非常广,它很擅长开放式对话场景(聊天),效果很好。但是在执行结构化任务(如表格生成)或者撰写详尽研究报告等,大模型的能力仍然有一定的缺陷。
2. 通用智能的进步:从知性到理性的转变
大模型到底是怎么产生的?大模型初始只是一个 Transformer 空壳,需要经过大量的语料数据进行预训练,然后进行指令微调后,大模型就会成为可以与我们聊天的工具。
仅靠数据输入的这种认知模式是否足以支撑未来的需求?从人类的认知规律来看,我们除了读书,还需要实践,才能真正达到运用知识。然而现在的大模型或者智能体在实践上是缺失的。虽然我们我无法保证硅基生命和 AI 的发展方法一定与人类生物一模一样,但是纯粹的接收数据而没有实践的大模型,能否催生更高级的智能能力,仍需深入探讨。因此,如果我们要增强模型理性能力,那么后训练阶段是非常重要的。
3. 大模型与专家的思维差距

思考一个问题:在领域里,摸爬滚打了几十年的专家和出入行业的新人,本质上最大的区别是什么能力?
领域专家之所以被称为“专家”称谓,实际源于其除了基本能力外,还掌握了一些高级能力。例如深层次推理能力、归纳总结能力等,此类能力中已有多项研究论证,并通过测试集对 GPT-4 等模型进行了能力验证,量化评估其能力水平,证实 GPT-4 已经具备了一定的深层次推理与归纳总结的能力。但是拥有能力和运用能力是两件事,其中运用某种能力的能力(即实践能力)是另外一种能力。然而,实践能力对于当前大模型来说是非常缺失的。
4. o1/r1:推理能力的里程碑

当前技术以 DeepSeek 及早期 GPT 系列(如 OpenAI-o1 模型)为代表,提出大模型在输出最终答案前应执行完整的 CoT(Chain-of-Thought,思维链)过程。这类 CoT 与传统过程性思维存在本质区别:它不仅包含基础逻辑推演,更整合了验证反思、策略尝试与假设生成等复合环节,这实际上已经与人类实践行为有一定相似之处。
另外,深度思维能力的形成依赖于强化学习方法。强化学习与我们强调的实践概念存在深层联系——强化学习的基本流程是通过实践环境的交互和反馈来优化训练模型的。
5. 机遇:解锁大模型领域思维潜能

强化学习与大模型的关系并不是一个新题目,(相关研究最早可追溯到 2022 年底)。但从历史经验来看,在 2023 至 2024 年期间,RLHF 甚至被很多人认为是不必要的,也可以训练出很不错的模型,或者也可以说 RLHF 的效果其实不明显。
为什么现在 RLHF 又重新爆火了?我认为 RLHF 重新爆火是两大要素的融合:
从实践中进行经验的反馈(已被证实有效)。要求模型先进行长篇思考的 CoT。上面两者协同作用形成了新型训练范式——即 R1-zero 训练过程。
6. 回看:r1-zero 训练的基本流程

下面我们来回顾一下 r1-zero 的训练过程。
针对特性 case 与 action,采用多种不同的尝试(试错),在尝试中计算每一次分数。(此过程与人类实践中的试错机制有一定相似之处)将尝试得到的每一次分数反馈并训练模型。例如对同一个问题做 N 个尝试,得到 N 个反馈,均反馈给模型,使模型知道什么样的尝试是有效的,什么样的尝试是被惩罚的。上面这个过程只是训练过程的表面依赖,另外还有两个隐藏依赖:
大模型需要能够生成 N 种不相同的尝试方案。这在一定程度上解释了为什么早期的 RLHF 不太成功,而现在结合 CoT 的 RL 能够取得成功——只有开放给模型权限生成一个很长的(包括尝试反思的)生成过程,才能够让模型产生 N 个有很大差异的解题思路。模型本身需要具备一定的基础能力。正如我们观察到的模型学习过程,如果模型在这 N 个回答中始终未能获得成功反馈,那么整个训练过程将无法带来任何提升。实际上,这两个隐藏依赖比前面的两个依赖更为关键,很多训练失败的情况往往源于此。
02
专业领域应用的三大核心挑战
接下来,我们将探讨在专业领域应用中的三大核心挑战。以大模型做 toC 产品的聊天机器人为例,它与真正要应用起来到底有什么区别?

我们可以将核心挑战总结为三个方面:
复杂指令执行的不稳定性问题。什么是复杂指令?举例来说,当我们直接向大模型提问时(如在手机豆包或 DeepSeek 中输入问题),通常只需简短的七八个字即可。然而在实际工作场景中,例如老板要求制作研究报告或表格,或是编写 Agent 的 prompt 时,这些指令往往特别冗长——既包含大量背景材料,又涉及诸多具体要求与约束(如"要怎样做""不要怎样做",以及"输出需采用 JSON 格式"等要求)。这种情况下,大模型经常因未能严格遵循指令而导致整个解析过程失败。专家思维模式的缺失问题。以 AlphaGo(阿尔法围棋)为例,它已超越人类水平并摒弃了所有人类棋谱。但在大多数行业应用中,当前的大模型尚无法像围棋AI那样完全超越人类专家经验。特别是在某些安全相关领域,系统必须严格遵循专家思维模式,而非自由发挥。工具调用的必要性。在行业应用中,大模型往往不能仅通过语言交互完成任务,而必须调用领域内的专业工具才能实现预期效果。1. 挑战 1:复杂指令的精准执行

我们接下来要探讨的是指令遵循能力,这是大模型的一项重要能力。
在实际行业场景中,人类发出的指令往往非常复杂。最典型的例子是 OpenAI 及其他一些公司在发布会上重点强调的:他们的模型会专门设有一个开关,打开后可以 100% 获得 JSON 格式的输出。作为 Agent 开发者都知道,这种保证是必不可少的。
现有思维模型的指令遵循能力较差那么,像 DeepSeek 这样的模型,是否在指令遵循能力上有所提升呢?
实际上并非如此。这是 DeepSeek 发布后的一项研究内容,该研究让 DeepSeek 进行下棋任务。具体下棋表现如何我们暂且不论,但我们需要重点讨论的是:它是否按照下棋规则进行对弈?研究数据显示,DeepSeek 在遵循下棋规则方面确实存在一些问题,其错误率相对较高。
蒸馏模型的指令遵循能力依然不足DeepSeek 除了满血版外,还提供了量化版和蒸馏版,而许多用户实际使用的是其蒸馏版。需要指出的是,指令遵循能力评估并非新课题,已有多个测试集可对此进行测评。我们对蒸馏版进行了专项测试,结果显示其在指令遵循能力上存在明显下降。那么,这种下降是否意味着模型智能程度降低?事实并非如此。
通过分析模型的思考过程可以发现,DeepSeek 虽然会进行大量反思(如"重新计算""反思一下"等),但这些反思过程对提升答案的指令遵循性帮助有限。正是这种低效的反思机制,导致蒸馏后的模型在指令遵循能力上反而出现下降。
2. 挑战 2:专家思维模式的差距

第二个挑战是专家思维模式的差距。这里我仅以计算机领域的经典的八皇后问题为例,这是一个基础算法问题,它关键在于必须通过回溯算法才能解决。
如果仅依靠大模型标准的顺序生成方式(从前到后、从左到右),那么你是不可能完成该任务。因为即便前七行放置完全正确,也必然导致第八行无法放置,此时必须进行回溯。由此可见,若要让大模型实现深度思维并在各行业真正发挥作用,就必须为其植入专业的思维模式。
现有模型的反思能力低下我们发现现有模型的反思能力确实存在一些问题:
上面图中左侧是斯坦福近期的一项研究,是为了解答一个疑问:为什么我们现在很多 GRPO 复现工作中,发现了 Qwen 模型的 GRPO 复现效果较好,而 LLaMA 的表现却较差?研究结果表明,Qwen 的基础模型本身就具备某些与反思相关的能力或特性,而 LLaMA 并不具备。我们的 GRPO 训练数据完全来自模型自我探索,若模型本身不具备这种能力,自然难以在 RL 中获得显著提升。
上面图中右侧图表,这是另一项关于反思效果的探索:当模型声称需要进行反思时,其实际反思效果如何?研究发现,模型往往只是“装模作样”的形式化地表示"需要反思",但反思结果多数情况下要么更加错误,要么维持原有错误水平。
GPT-4o 显著强化了反思能力关于模型的反思能力,我们从去年就开始进行相关研究。当时就已注意到一个现象:大多数模型迭代版本中,反思能力的提升并不显著。例如从 LLaMA2 到 LLaMA3 的升级过程中,其反思能力并未获得实质性改进。
然而,OpenAI 的模型发展是个例外。从 GPT-3.5 到 GPT-4o,其反思能力实现了显著提升。虽然我们在此仅展示实证分析而没有具体数值,但可以观察到:传统模型的反思行为往往表现为摇摆不定,或仅因外部干扰就轻易改变结论。而具备良好反思能力的模型会严谨分析答案的正确性,并给出更优的解决方案。事实证明,GPT-4o 在这一能力上确实取得了重大突破。
专家的关键提示至关重要我们通过实证研究探讨了一个关键问题:是否存在某些专家思维模式能显著提升问题解决效果?这项研究主要聚焦于其存在性验证:
例 1:传统数学领域存在一个普遍现象:许多经典难题的突破往往依赖于灵光一闪时刻,一旦出现,即使非专业人士也能快速找到解决方案。
例 2:在大模型应用场景中同样如此。即使在数学解题任务上,也存在模型自身无法生成和预测的但具有关键作用的文本提示。当加入这些特定提示后,模型能立即输出正确答案。
如上图所示,在四个 CoT 示例中,选择合适的提示能立即提升模型在各类数学问题上的准确率约 10%。这证实了此类神奇的思维模式确实存在,而获取这些模式的关键往往源于行业专家的专业思维积累。
3. 挑战 3:工具调用的被动性

第三个核心挑战在于工具调用能力的实现。虽然工具调用并非新课题,但在RL应用前,现有方法主要依赖 prompt 工程或 SFT,他们的本质问题是僵硬——无法实现工具调用能力的泛化,难以智能地选择和使用工具,仅能进行机械模仿。
事实上,成熟的工具调用能力在行业应用中至关重要,主要体现在:
行业刚需:例如私有数据访问和API调用等基础需求可信度提升:通过调用已验证的工具可显著增强用户信任度,因为工具本身具备可靠性
(1)现有工具调用方式更像被动的“提线木偶”
当前基于 SFT 的工具调用方式存在明显不足:使用 prompt 时,当工具数量较多,则无法将所有工具的详细说明完整纳入 prompt 中。在 SFT 模式下,工具调用行为过于机械,泛化能力不足,仅能在与训练数据相似的特定场景中调用相应工具。

(2)大模型中工具调用的四大关键问题
关于工具调用的挑战,我们认为至少存在四个关键问题:
何时需要调用工具?以财务领域为例,专业财务人员必然会使用计算器,但并非每次计算都会使用。对于简单计算可直接计算,复杂计算才需借助工具。因此,调用时机的判断至关重要。调用何种工具?当存在多个可用工具时,如何进行工具选择?如何设置工具调用的参数?这也是当前工具调用系统最欠缺的环节:如何将工具调用的结果反馈至模型的思考过程中?例如,数学家会使用计算器辅助思考,但其最终目标是完成数学证明而非计算结果。在整个证明过程中,计算器仅作为思考辅助工具被频繁使用。03
基础模型思维能力的提升方向
1. 长思维链:提升复杂指令遵循能力

回到我们上面讨论的深度思维能力问题:这种能力对我们的复杂指令遵循是否具有实际帮助?首先需要论证的是,长思维模式确实能带来提升。
我们可以明确一个前提:如果 prompt 复杂度越高,那么大模型的表现通常越差——这一点很容易验证。那么关键问题在于:当要求模型一次性输出答案与让其逐步迭代修改时,哪种方式能获得更好的指令遵循能力?
显然,迭代修改的方式能够带来更优的指令遵循效果。
2. 事前规划的重要性

另一方面,若对复杂指令进行预先规划,在这种"先规划后执行"的框架下,是否能够获得更好的指令遵循能力?
答案是肯定的。采用先规划后执行的方式确实能提升效果,这类似于我们在填写重要表格时,提交前会使用检查清单(checklist)逐项核对是否满足第一项约束、第二项要求、第三项要求等。通过这种方式,可以确保提交的材料完全符合规定。
3. 长思维链帮助复杂指令遵循

总结而言,若模型能够通过恰当的长思维链获得指令遵循能力的提升,那么这种长思维模式应当包含迭代修改、持续改进的思维方式,或是先规划后执行的思维框架。
4. 基于结果导向强化学习提升指令遵循

既然我们确认长思维链具有积极作用,接下来就需要思考如何通过RL来增强这种思维模式对指令遵循的正面影响。
这引发出三个关键问题:
对于复杂指令遵循而言,Reward 机制应如何设计?如何促使模型生成更多样化的有效思维方式?应采用何种训练策略可以提高训练的结果上限?5. RQ1:如何设计 Reward

针对如何设计 Reward 的解决方案相对简单。正如我们先前讨论的 RL 显式依赖特性,只要存在可判定的目标,即可将其应用于 RL。而指令遵循恰好是极易判定的任务类型,因此它的 Reward 设计实际上非常标准(此处暂不考虑软约束)。对于硬约束而言,我们可以直接基于约束遵循程度进行快速判定,并将其转化为 Reward。
6. RQ2:如何在采样阶段产生不同的思维方式

何种思维方式能帮助模型产生有效的思维模式?
我们的解决方案是采用标准操作流程:在 RL 训练或 SFT 之前,先对模型进行初步冷启动处理。这种方法能使模型生成部分可靠的 answer,但同时也会产生一些不可靠的 answer。
7. RQ3:什么 RL 训练策略可以提高结果上限

关于训练策略,实际上遵循了标准 RL 训练流程,并融入了课程学习方法。具体操作是:先训练简单约束(即约束较少的问题),再逐步过渡到复杂约束(约束较多的问题)。这样设计的目标是确保在 GRPO 的每个 group 中,都同时包含成功案例和失败案例,从而保证训练的有效性。
8. 实验结果

实际效果表明,经过此类 RL 训练后,模型能够显著提升约 10 个百分点的指令遵循能力。

然而,这样的提升足够么?实际上仍显不足。不过也体现了模型确实能够学会在思考过程中持续修正和优化其答案。
9. Long CoT 如何更好地增强指令遵循

实际上,这种做法的提升效果并不显著,而且它呈现出一个明显特性:我们发现 thinking cot 的长度并未增加,这与 DeepSeek 论文中描述的"在训练过程中 thinking cot 持续延长"的现象不符。
那么,为何 thinking cot 没有变长呢?原因在于其思考过程仅包含少量约束复述,很少会触发对约束的反思行为(类似 checklist 的验证过程)。因此我们提出一个猜想:从 DeepSeek 蒸馏得到的、未经充分干预的思考过程,实际上未能自发产生有助于指令遵循的思维方式。
这导致两个结果:
无法在 RL 训练中奖励这些思维方式人工设计的有益思维方式变得尤为关键10. 通过蒸馏干预思维过程

基于此,我们设计了三类有助于程序执行的思维方式:
约束分析:分析约束的具体性质和要求草稿迭代:先生成初步方案草稿,再进行逐步修改完善约束验证:如同前述 checklist 机制,最终对每条约束进行复核验证这三类思维方式仅提供思维的方式,具体执行仍由模型自发产生。我们通过 prompt 工程和 SFT 两种方式将这三类思维模式注入模型,再进行 RL 训练,取得了非常显著的效果:
模型在指令遵循效果上获得进一步提升输出长度显著增加(从平均 200 增长至 1000)生成的思考内容中包含更多符合设计预期的模式这个工作证明了针对特定任务需求及其相关思维方式,我们需要预先将其注入模型,而不能完全依赖模型自主探索可能的思维方式。
11. 元思维能力提升:反思与自我优化

我们开展的第二个研究工具是模型反思能力。
如前所述,GPT-4o 展现出强大的反思能力,但其他系列模型在此方面未见显著提升。以 Qwen2-7B 和 Llama3-8B 为例,当要求模型进行反思以改进答案时,多数情况下反而导致答案质量下降。上面的第二个图表是来自 Logic-RL 研究,他们在 GRPO 复现实验(使用 reinforce++ 方法)中发现:模型生成 verify 时能提升答案质量,但生成 retract 时却导致效果下降。这些现象均表明,当前基础模型的反思能力存在明显不足。
12. 模型的反思自我纠错能力

当前模型反思能力不足,很可能仅因缺乏专项训练。在我们进行 RL 训练前,若能先提升其反思能力,必将对后续 RL 效果产生一些帮助。
那么,如何通过特定训练使模型自发泛化出纠错能力呢?换言之,我们希望当要求模型反思并给出新答案时,它能提供更优的解决方案。为此,我们可以很容易构建这样的训练数据:让模型首先生成错误答案,再要求其反思并输出正确答案。虽然错误答案和正确答案都易于收集,但在训练过程中需谨慎避免对错误答案求导,以防模型学习错误模式。通过这种简单的指令微调,即可使模型在收到反思指令时提供更优质的答案。
13. 自我完善:从单步到多步

我们可以很自然地将这一方法进行推广,采用类似的方式让模型逐步优化其答案。如上面图所示的最右侧指令格式:给定一个问题,先生成多个不同版本的回答,然后通过要求模型进行修正、修改和提升,实现从较弱答案到较强答案的进化过程,最终通过指令微调将这一完整流程训练进模型中。
众所周知,指令微调的核心价值在于泛化能力——模型通过对五万条问题的学习,就能掌握回答各种人类聊天问题的能力。同理,即使只经过少量持续迭代优化的训练,模型也能泛化出持续优化的能力。
14. LLM 的迭代自我完善能力

此处效果我们就不多说了,其有效性显而易见。
04
思维结构化框架与应用
1. 模仿专家思维的法律抗辩 Agent

我们上面提到,某些问题的思维结构是非常关键的。那么,思维结构化对模型究竟有什么帮助?
以法律领域为例:当要求大模型扮演律师进行法庭抗辩时(类似辩论赛形式),深度思维模型如 DeepSeek-R1 能够胜任这一任务——它会分析怎么样去辩论并提供多种辩论结果。另一种做法是模仿特定律所或律师的既有辩论策略。这两种方式各具优劣:自由结果导向的辩论方式可能过于随意;而行业内的专业律所往往要求遵循固定辩论模式,这样即便失败也不需承担责任。
2. 图尔敏论证模型&主题挖掘

在专业领域实践中,存在很多传统模型体系,这些模型与我们讨论的大模型存在本质差异。以法律领域为例,典型的图尔敏论证模型便属此类。这类模型可类比于辩论中的固定策略模式:当对方质疑论点时,应采取举证反驳;而当遭遇强烈质疑时,则需转向直接反驳质疑方本身。
3. 模仿图尔敏模型的算法框架

实际上,对于这些传统模型来说,我们同样可以利用这些传统模型来构建相应的智能系统。正如这个研究是基于传统的图尔敏抗辩模型构建了专门的 Agent,该 Agent 包含多个功能模块,例如举证模型能够在识别到举证需求时自动执行举证操作。
4. 实验结果

评估结果显示,基于传统模型构建的 Agent 能有效的提升基础模型的抗辩能力。以 Qwen7b、Qwen32b-instruct 和 Deepseek V3 为例,其平均胜率提升幅度接近 64%。
5. 与 DS-r1 的对比

与 DS-R1 相比,实际表现可谓旗鼓相当,并没有展现出相对于经过强化学习的超大模型的胜率优势。然而,其在可控性方面具有更显著的优越性。
6. 工作流顺序对结果的影响

然而,这是否意味着探索就到此而已了吗?实际并不是。我们前面说过,试错与实践是非常关键的。那首先我们要看在这样的 Agent 框架中是否有试错与实践的空间?
为此,我们设计了一个实验:如果我们保持 Agent 角色不变,仅调整其协作顺序——例如将"先反驳后举证"改为"先举证后反驳"。这种顺序调整是否会在不同场景下产生胜率差异?
在上面的图中右侧图表展现出:当修改 Agent 内部角色的协作顺序后,胜率变化非常显著。这意味着,我们可以运用 RL 来帮助寻找不同场境下的最优协作顺序。目前,这个工作正在进行中,获得初步成效,暂不展示具体数据结果。
05
深度思考与工具调用的融合
1. 大模型中的工具调用

下面我们进入第三部分,探讨深度思考与工具调用的融合。
工具调用实际上是非常关键的,工具也多种多样。例如调用 Python 解释器,实际上是最好调用的工具,因为工具本身就是用 Python 实现的。
2. 基于试错而不仅仅是描述来学习使用工具

人类的工具学习与目前大模型工具学习,实际上是完全不一样的。以学习驾驶汽车为例:人类并非通过阅读说明书掌握驾驶技能,而是需要实际操控方向盘、亲身体验驾驶过程。绝大多数工具学习都依赖实践探索,仅少数情况下能够通过阅读说明书后一次尝试即获成功。由此可见,大模型的工具学习更需依赖 RL,而非传统 SFT 等方法。
3. 融合编程与计算的大模型深度思考

为此,我们开发了基于 RL 的调用工具。作为初步尝试,我们先做了用 RL 调用 Python 解释器的功能,Python 解释器的应用场景十分广泛,例如在数学计算领域,可以确保计算结果的绝对准确性。在实现层面,我们重构了部分推理代码:当模型在推理过程中检测到需要调用工具的特定 token 时,系统会暂停推理流程,调用 Python 解释器执行相应操作,完成后继续原有的推理过程。
4. RQ1:深度思考+工具调用是否能够增强性能?

在完成这一基础建设后,我们即可运用RL展开后续工作。该RL机制设计很简单:通过改写代码使模型能够自主生成指令。与前面方法一样,我们通过 prompt 和 SFT 告知模型可在特定 token 处调用工具,系统将代为执行。若成功解决问题则给予正向反馈,反之则提供负向反馈。
这一方法成效显著:
如上图左例所示,模型能够识别复杂运算需求并调用 Python 求解。如上图右例所示,它知道怎样调用判案程序去解这个方程组的能力。特别值得注意的是,上图中左例中模型进行了两次程序调用。5. RQ2:模型是否能够学会动态调用工具?

我们来看一个更复杂的数学题示例。在这个案例中,模型先后调用了两次 Python 解释器:第一次获取最小公倍数,第二次同样用于最小公倍数计算,第三次遇到 180×10 这类简单运算时,模型选择直接计算而非调用工具。这正是我们期望实现的理想效果。
这一结果凸显三个关键发现:
如果只是用 SFT 训练(如训练数据仅包含单次工具调用),那么模型难以泛化出多次调用的能力。SFT 训练的模型往往机械调用工具(如所有计算都使用计算器),无法实现"简单问题直接计算,复杂问题调用工具"的智能判断。通过 RL 训练,模型能自主识别:某些题目必须调用工具才能获得正反馈,而简单问题可直接求解。更重要的是,工具调用及其执行结果已完全融入模型的推理过程,而非传统的"先规划后执行"模式(即先生成工具调用方案再执行)。这种深度融合避免了传统方式中因工具调用失败导致的整体失效。
6. RQ3:动态使用编程工具的能力能否迁移泛化?

我们的模型展现出非常强大的泛化能力。比如成功解决了标准大模型测试中的两大难题:
数值比较:9.11 和 9.9 哪个大?3.11 和 3.9 哪个大?字符统计:strawberry 包含几个字母?需要强调一点,该模型仅在 GS8K 和 LS 数学数据集上进行训练,从未接触过类似编程场景的训练数据,却能够自发泛化出来,实现了通过工具调用解决这类问题的能力。
7. 工具调用和深度思维有效融合

为了证明工具融合是更顺滑的,我们提供了一个典型案例:该模型具备一定的反思能力,包括在出错时主动调用反思机制。当工具调用功能融入后,模型自发实现了反思能力与工具调用的有机结合。
如上面图中所示,当模型调用工具时若出现代码的编译错误,它会自主触发反思:"前面的代码有误,需要修改并重新执行"。这充分证明了两种能力完全融合在一起的效果。
8. 问题难度对训练的影响

这一方法成效显著:仅需不足 1000 步的训练,就可以实现工具调用与思维过程的有效融合,并在数据集上获得明显的性能提升。
9. 总结:通用智能向领域发展的进步路径

专业领域应用特别需要这样的思维能力。这种能力一方面可以通过强化学习实践来开发,但在应用强化学习时,除了确保问题可判定外,还需要预先融入专家思维。而不是让模型自发的进行盲目的探索,那样太低效了。
我们上述工作都是基于 GRPO 复现框架实现,包括指令遵循和工具调用两大模块。目前这个框架已完全开源,经多位本科生验证已具备良好的可复现性。
以上就是本次报告的全部内容,感谢各位的聆听。
以上就是本次分享的内容,谢谢大家。