哈佛揭开"训练越多越好"的迷思：AI生物推理模型的三阶段炼成法则

这项由哈佛大学联合谷歌DeepMind与谷歌研究院共同完成的研究，以预印本形式于2026年6月15日发布在arXiv平台，论文编号为arXiv:2606.16517。研究涵盖了超过100个生物推理模型的系统性训练与评估实验，是目前针对生物领域AI后训练阶段最为系统深入的对照研究之一。

生物医学AI是当下最热门的研究前沿之一。我们已经看到各种AI系统声称能够预测蛋白质结构、识别致病基因、帮助寻找药物靶点。然而，这些系统背后有一个几乎从未被认真追问的问题：把模型训练得越久、喂给它越多数据，它真的会变得越来越聪明吗？

现实情况远比这复杂。哈佛大学的研究团队花了大量时间，系统地训练和测试了超过100个生物推理模型，用覆盖DNA、RNA和蛋白质三种生物分子类型的任务，严格验证了每个训练阶段究竟对模型能力产生了什么影响。他们的结论颠覆了很多人的直觉：更多的训练，不一定带来更好的泛化能力；关键在于训练的方式，以及不同训练阶段如何搭配组合。

要理解这项研究，可以用烹饪作为贯穿始终的类比。训练一个能真正"理解生物学"的AI，就像培养一位有真才实学的大厨，而不只是一个能背菜谱的机器人。研究团队想搞清楚的是：学厨的三个阶段——基础烹饪理论课、反复练习固定菜谱、以及在不同餐厅临场发挥——各自对大厨最终的本事有什么影响？练得越多，在陌生厨房里就越厉害吗？答案并不那么简单。

一、为什么生物学是测试AI泛化能力的"最难考场"

在数学和编程领域，当你训练AI解数学题，大多数"陌生题目"其实跟训练题有相似的结构，只是换了数字或变量名。但生物学不一样。在生物世界里，一条没见过的代谢通路、一种未曾研究过的疾病、一个来自不同物种的蛋白质，可能涉及的是完全不同的生化机制和分子互动逻辑。就好比你在中餐厅学会了炒菜，未必就知道怎么做法式酱汁——两者的底层逻辑差异可能远超表面看起来的样子。

这意味着，一个在训练集上表现完美的生物AI模型，换到它没见过的生物系统时，很可能直接"翻车"。而且更棘手的是，你在熟悉的题目上练习越多，模型可能越来越擅长"认菜谱"，而不是真正学会"做菜的道理"。这种现象研究团队称之为"过度专化"——模型越来越适应训练数据的分布，却离真实生物世界的复杂多样性越来越远。

研究团队为三类任务分别设计了严格的"熟悉"（域内）和"陌生"（域外）测试。域内测试就像考你在训练餐厅里做过的菜，域外测试则是把你扔到一个完全陌生的厨房，让你用没见过的食材做没做过的料理。这种区分让他们能够精确捕捉到：每一轮额外训练，究竟是让AI真的更聪明了，还是只是更擅长考试了。

二、三位"训练教练"各司其职，却并非缺一不可

研究团队把训练分成三个依次进行的阶段，分别对应不同的目标和功能。

第一个阶段叫做"持续预训练"（CPT）。在这一阶段，模型并不去做具体的生物学任务，而是大量阅读各类生物学文本——论文摘要、科普文章、专业文献等等。这就像大厨入行前先花时间广泛阅读食谱书、了解食材知识、建立对烹饪世界的基础认知，而不是上来就开火炒菜。这个阶段培养的是"生物语言感觉"，让模型理解蛋白质、基因、通路这些词汇的上下文含义。

第二个阶段叫做"监督微调"（SFT）。这是最直接的"题海战术"训练：给模型看大量标准的问答样本，让它学着模仿正确答案的形式和内容。比如"这个基因突变会引发什么疾病"，然后给出标准答案，让模型反复学习。这就像让大厨反复练习同一批经典菜肴，直到动作娴熟、出品稳定。

第三个阶段叫做"强化学习"（RL）。这个阶段不再给模型看标准答案，而是让它自己尝试给出答案，然后根据答案的好坏给予奖惩反馈，驱动模型不断改进。这就像让大厨在真实的评分比赛中历练，通过客人的即时反应来磨练真正的临场判断力，而不是背书本答案。

三个阶段听起来顺理成章，但研究团队真正想弄清楚的是：这三个阶段是不是简单地"叠加"就能带来更好的效果？每增加一个阶段，模型是否都在变得更好？

三、监督微调是把双刃剑：学得越多，却越"固执"

研究团队进行了一系列精心设计的实验，每次只改变一个变量，保持其他条件不变。关于监督微调阶段的发现是整项研究中最出人意料的部分之一。

在固定训练数据量、只增加训练轮次的情况下，研究团队发现了一个清晰的规律：随着训练轮次的增加，模型在熟悉题目上的表现持续提升，但在陌生题目上的表现却在某个节点之后开始下滑。以DNA通路预测任务为例，一个模型在训练了1轮之后，熟悉题目的准确率约为68%，陌生题目约为68%，两者旗鼓相当。但随着训练增加到16轮，熟悉题目的准确率爬升到了90%，而陌生题目的准确率在2到4轮时达到了约73%的峰值，此后便开始回落，最终跌回到68%左右。

用烹饪来解释这个现象非常直观。一个大厨如果在同一家餐厅里反复练习同一批菜，练到后来他确实越来越擅长做这几道菜，但他对这家餐厅的食材、火候、摆盘习惯产生了深度依赖。把他换到别的厨房，他可能反而比刚入行时更不适应——因为他已经把"这家餐厅的做法"当成了"做菜的真理"。这种现象在生物学AI里尤其危险，因为真正有价值的是模型能否在陌生的生物系统里保持推理能力。

这个发现在RNA药物靶点识别和蛋白质功能预测任务中同样出现，甚至表现得更为明显。RNA实验中，模型陌生任务的准确率从峰值到训练结束时下降了约18个百分点，且下降过程几乎是单调连续的，而不是在某个点达到平台后维持稳定。

研究团队还做了另一组实验：保持训练轮次固定为1轮，但逐步增加训练数据量。结果发现，这种方式比增加训练轮次要"温和"得多。随着数据量从4000个样本增加到20000个，模型在陌生题目上的表现基本呈现稳定上升或平台趋势，而不会出现先升后降的崩塌现象。这说明，同样多的训练算力，花在"看更多不同例子"上，比花在"反复看同样的例子"上，对泛化能力的伤害要小得多。

研究团队将这个核心发现归纳为：监督微调能快速提升模型在训练分布上的表现，但随着训练深度增加，模型会逐渐收缩到训练数据的分布范围内，失去面对生物多样性时的灵活性。

四、强化学习是解药，但需要在正确的时机服用

既然监督微调会造成"过度专化"，强化学习能不能修复这个问题？研究团队的答案是肯定的——但有条件。

研究团队从每个任务中挑选出监督微调的最佳检查点（也就是陌生任务表现最好时的模型状态），然后在此基础上继续进行强化学习训练，观察结果如何变化。实验结果相当令人鼓舞：在DNA、RNA和蛋白质三种任务上，强化学习几乎都同时提升了熟悉任务和陌生任务的表现，而且陌生任务的提升幅度往往更大。

以蛋白质功能预测任务为例，从第1轮强化学习到最佳检查点，陌生任务的评分（F值，用于衡量预测质量）提升了约0.08个绝对值，这在生物信息学领域是相当可观的进步。更重要的是，强化学习带来的改善并没有以牺牲熟悉任务表现为代价——两个方向都在变好，只是陌生方向的进步更显著。

还有一个规律值得注意：强化学习的收益集中在最初几轮。也就是说，第1轮的提升最明显，之后每增加一轮，额外收益就越来越小。这就像一个大厨在真实比赛中的前几场历练获益最大，之后提升逐渐趋缓。这个规律给出了一个实用的操作建议：强化学习不需要无限增加，在合适的时机停止反而是明智之举。

然而，研究团队也发现，强化学习的效果高度依赖于出发点的质量。如果监督微调阶段做得太差，直接进入强化学习，模型可能无法从反馈信号中有效学习。好比一个连基本刀工都没学会的厨师去参加高级评分比赛，没有任何基础的话，客人的评分对他来说也是噪音，不知道怎么改进。强化学习需要一个"够好的监督微调起点"，才能发挥出真正的威力。

五、最被低估的准备工作：持续预训练是隐形的地基

在三个训练阶段中，持续预训练往往是最容易被忽视的一环，因为它不直接解决任何具体任务，看起来像是"绕路"。但研究团队的实验数据清楚地表明，这个"绕路"阶段对后续一切训练的质量都有深远影响。

在DNA和RNA实验中，研究团队分别比较了"有持续预训练"和"没有持续预训练"两条路线下的最终模型表现。结论是：持续预训练在几乎每一个后续训练阶段都带来了可见的提升，但这个提升的幅度因阶段不同而差异巨大。在监督微调阶段，改善相对有限；但在强化学习阶段，尤其是在陌生任务上，持续预训练的加持带来了显著更大的收益。

对于规模较小的模型（如参数量为17亿的版本），这个效果尤为明显。在DNA任务的陌生测试中，有持续预训练的模型比没有预训练的版本整体提升了约0.2个准确率单位——这不是小数字。研究团队的解释是：没有经过生物学语言熏陶的通用语言模型，在面对监督微调和强化学习时，需要同时学习三件事：生物学语言规范、任务的格式要求、以及真正的推理逻辑。把三件事同时塞给模型，每件事都学得不够透彻。持续预训练先把"生物学语言感觉"建立起来，让后续训练可以专注于更高层次的推理能力培养。

这个发现特别适用于计算资源有限的研究团队：与其把全部预算花在反复监督微调上，不如先拨出一部分算力做持续预训练，为后续的强化学习打好地基，最终的陌生任务表现往往更好。

六、更大的模型只是把上限抬高，并不改变游戏规则

一个自然的疑问是：如果换用更强大的基础模型，上述这些规律是否还成立？研究团队在RNA任务上专门针对这个问题做了实验，额外引入了谷歌DeepMind的Gemma 4 E2B模型作为对照，与两个Qwen3系列模型（1.7亿和4亿参数）一起比较。

结果颇具说服力。不同底层模型的绝对表现存在差异——更强的基础模型确实能达到更高的性能上限。但训练动态的基本形态保持一致：监督微调仍然导致熟悉任务提升、陌生任务先升后降的模式，强化学习仍然更有效地改善陌生任务表现。Gemma模型在某些情况下的强化学习阶段表现得更为平稳，不像较小的Qwen模型那样在开始强化学习时会出现短暂的性能回落，但这只是幅度和流畅度上的差异，而非本质规律的改变。

用烹饪来类比：把一个普通人和一个天赋异禀的厨艺学徒放在同样的培训流程里，天赋更好的那个最终水平更高，但两个人都会经历"练一道菜越来越熟练、但越来越不会举一反三"的阶段，区别只在于更有天赋的人这个阶段来得晚一些、回落幅度小一些。

这个发现有一个实用意义：如果你没有条件使用最大最强的模型，你仍然可以通过合理配置训练策略来最大化模型的泛化能力，而不必把所有赌注压在"用更大的模型"这一条路上。

七、容量分配的艺术：强化学习需要"轻装上阵"

研究团队还深入研究了一个更细节的技术问题：在模型的可训练参数量上，监督微调和强化学习分别应该分配多少？这涉及到一种叫做LoRA的技术——简单来说，这是一种让大模型局部更新的方法，通过控制"调整层的大小"（称为"秩"）来控制模型改变自身的幅度。

研究团队系统地测试了不同的秩组合。结论是：监督微调阶段需要较高的秩（更大的调整空间），而强化学习阶段反而在较低的秩下表现更好。具体来说，监督微调用256的秩、强化学习用16的秩，比两个阶段都用64的秩效果更好。

这个规律直觉上也说得通。监督微调要教会模型理解任务格式、生物学专业知识和推理模式，需要足够的"容量"来吸收这些多样化的信息。但强化学习的任务是在已有知识基础上微调决策策略，如果给了太大的调整空间，反而容易过拟合，把奖励信号学歪了。小幅精准的调整，比大幅粗放的调整，更能保留模型已经建立起来的生物推理能力。

回到厨师比喻：学习菜谱和技术时，你需要大量笔记和笔记本（高秩）；但在比赛中临场调整风格时，只需要在脑子里做几个细微的修正（低秩），如果这时候还一直在翻阅笔记、大幅改变做法，反而会手忙脚乱。

八、如何在固定预算内取得最好的熟悉-陌生平衡

最后，研究团队还做了一个非常实用的实验：把总训练"步数"固定为8步，然后测试不同的监督微调与强化学习步数比例，看哪种分配方案能带来最好的综合表现。

结果清楚地显示，最优方案既不是"全部用监督微调"也不是"全部用强化学习"，而是在中间某个合适的比例。具体来看，用1到3步做监督微调、剩余步数全部做强化学习，是陌生任务表现最好的配置范围。如果把大部分步数都花在监督微调上，陌生任务表现会显著下滑；如果完全不做监督微调、直接上强化学习，模型也因缺乏基础而表现不佳。

用一个直观的说法：先用少量时间建立任务基础，剩余时间全力练习临场应变，比把大部分时间用来反复练习固定菜谱、只留少量时间临场发挥，要聪明得多。监督微调负责打底、建立框架，强化学习负责破圈、拓展边界，两者缺一不可，但比例至关重要。

在数据固定、只变步数比例的情况下，DNA任务中，Qwen3-1.7B和Gemma模型都在"2步监督微调+6步强化学习"附近取得了陌生任务的峰值准确率，约78%左右，而"8步全部监督微调"时陌生任务准确率约71%，"8步全部强化学习"时陌生任务准确率更低，约62%。这种差距在RNA任务上体现得更为明显。

说到底，这项研究最核心的贡献不是某个新算法或新模型，而是一套系统性的"训练智慧"。三个训练阶段并不是简单地越多越好——持续预训练是铺底的地基，监督微调是建立任务能力的主体结构，强化学习是帮助模型真正破墙而出、应对真实世界多样性的最后一道工序。关键在于，每个阶段都有其适合的比例和参数设置，盲目地加大任何一个阶段的投入，都可能以牺牲另一维度的能力为代价。

这对生物医学AI领域的实际从业者意味着什么？意味着在有限的计算资源下，花时间思考"怎么训练"比单纯追求"训练多少"更有价值。意味着在发布一个生物AI模型时，不能只看它在熟悉数据上的漂亮分数，而必须认真评估它在陌生生物系统上的表现。归根结底，一个只会在训练数据范围内表现出色的生物推理模型，在真正面对未知疾病、未知基因、未知物种时，很可能无从下手。而那才是生物医学AI真正需要解决的问题。

感兴趣的读者可以在arXiv平台通过论文编号arXiv:2606.16517查阅完整论文，也可以访问研究团队在GitHub上开源的代码库和Hugging Face上的模型检查点，自行复现或扩展这些实验。

Q&A

Q1：生物AI模型训练时，监督微调做多少轮合适？

A：研究发现监督微调并非越多越好。在固定数据量下，陌生任务的表现通常在2到4轮时达到峰值，之后随训练轮次增加反而下滑。如果目标是让模型在未见过的生物系统上也能泛化，建议早停监督微调，之后转入强化学习阶段。DNA任务实验中，16轮时熟悉任务准确率达90%，但陌生任务已从73%的峰值回落至68%。

Q2：强化学习为什么能提升生物AI的泛化能力？

A：强化学习通过让模型自己尝试并接受奖惩反馈来优化策略，而不是模仿固定答案，因此不会像监督微调那样把模型"锁定"在训练数据的分布里。实验显示，在强监督微调检查点基础上进行强化学习，陌生任务表现能获得显著提升，而且大部分收益集中在最初几轮，无需无限增加训练量。

Q3：持续预训练对生物推理模型有多大影响？

A：影响相当显著，尤其是对较小的模型。实验中，有持续预训练的Qwen3-1.7B在DNA陌生任务上比无预训练版本提升了约0.2个准确率单位。其作用在于提前让模型建立生物学语言感觉，使后续监督微调和强化学习能专注于更高层次的推理能力，而不必同时处理语言和任务两个维度的学习压力。

DC娱乐网

哈佛揭开"训练越多越好"的迷思：AI生物推理模型的三阶段炼成法则

热门分类

哈佛揭开"训练越多越好"的迷思：AI生物推理模型的三阶段炼成法则

猜你喜欢

一旦美、中、俄之一率先掌握核聚变可控技术，后果会有多可怕？就这么说吧，谁要是

4亿年前的地球上，曾存在一种高达8米的神秘生物，科学家至今无法分类你能想象吗？

力量训练真的可以让人逆龄变年轻吗？这并不是坊间传言，有权威科研数据给出了确切答案

2026年6月29日，人类有史以来建造的最强大机器停机了。大型强子对撞机（LHC

5亿多年前，第一批植物从水里爬上陆地。等着它们的，除了干旱和温差，还有一个水下几

大模型领域总是如此安静，以至于小米取得了如此突破都没智慧生物的吵杂声。大模型赛道

清华大学叶文洁背叛人类，擅自向太空中发射电波，8年后竟收到神秘回复：不要回答！不

热门分类