
这项由哈佛大学联合谷歌DeepMind与谷歌研究院共同完成的研究,以预印本形式于2026年6月15日发布在arXiv平台,论文编号为arXiv:2606.16517。研究涵盖了超过100个生物推理模型的系统性训练与评估实验,是目前针对生物领域AI后训练阶段最为系统深入的对照研究之一。
生物医学AI是当下最热门的研究前沿之一。我们已经看到各种AI系统声称能够预测蛋白质结构、识别致病基因、帮助寻找药物靶点。然而,这些系统背后有一个几乎从未被认真追问的问题:把模型训练得越久、喂给它越多数据,它真的会变得越来越聪明吗?
现实情况远比这复杂。哈佛大学的研究团队花了大量时间,系统地训练和测试了超过100个生物推理模型,用覆盖DNA、RNA和蛋白质三种生物分子类型的任务,严格验证了每个训练阶段究竟对模型能力产生了什么影响。他们的结论颠覆了很多人的直觉:更多的训练,不一定带来更好的泛化能力;关键在于训练的方式,以及不同训练阶段如何搭配组合。
要理解这项研究,可以用烹饪作为贯穿始终的类比。训练一个能真正"理解生物学"的AI,就像培养一位有真才实学的大厨,而不只是一个能背菜谱的机器人。研究团队想搞清楚的是:学厨的三个阶段——基础烹饪理论课、反复练习固定菜谱、以及在不同餐厅临场发挥——各自对大厨最终的本事有什么影响?练得越多,在陌生厨房里就越厉害吗?答案并不那么简单。
一、为什么生物学是测试AI泛化能力的"最难考场"
在数学和编程领域,当你训练AI解数学题,大多数"陌生题目"其实跟训练题有相似的结构,只是换了数字或变量名。但生物学不一样。在生物世界里,一条没见过的代谢通路、一种未曾研究过的疾病、一个来自不同物种的蛋白质,可能涉及的是完全不同的生化机制和分子互动逻辑。就好比你在中餐厅学会了炒菜,未必就知道怎么做法式酱汁——两者的底层逻辑差异可能远超表面看起来的样子。
这意味着,一个在训练集上表现完美的生物AI模型,换到它没见过的生物系统时,很可能直接"翻车"。而且更棘手的是,你在熟悉的题目上练习越多,模型可能越来越擅长"认菜谱",而不是真正学会"做菜的道理"。这种现象研究团队称之为"过度专化"——模型越来越适应训练数据的分布,却离真实生物世界的复杂多样性越来越远。
研究团队为三类任务分别设计了严格的"熟悉"(域内)和"陌生"(域外)测试。域内测试就像考你在训练餐厅里做过的菜,域外测试则是把你扔到一个完全陌生的厨房,让你用没见过的食材做没做过的料理。这种区分让他们能够精确捕捉到:每一轮额外训练,究竟是让AI真的更聪明了,还是只是更擅长考试了。
二、三位"训练教练"各司其职,却并非缺一不可
研究团队把训练分成三个依次进行的阶段,分别对应不同的目标和功能。
第一个阶段叫做"持续预训练"(CPT)。在这一阶段,模型并不去做具体的生物学任务,而是大量阅读各类生物学文本——论文摘要、科普文章、专业文献等等。这就像大厨入行前先花时间广泛阅读食谱书、了解食材知识、建立对烹饪世界的基础认知,而不是上来就开火炒菜。这个阶段培养的是"生物语言感觉",让模型理解蛋白质、基因、通路这些词汇的上下文含义。
第二个阶段叫做"监督微调"(SFT)。这是最直接的"题海战术"训练:给模型看大量标准的问答样本,让它学着模仿正确答案的形式和内容。比如"这个基因突变会引发什么疾病",然后给出标准答案,让模型反复学习。这就像让大厨反复练习同一批经典菜肴,直到动作娴熟、出品稳定。
第三个阶段叫做"强化学习"(RL)。这个阶段不再给模型看标准答案,而是让它自己尝试给出答案,然后根据答案的好坏给予奖惩反馈,驱动模型不断改进。这就像让大厨在真实的评分比赛中历练,通过客人的即时反应来磨练真正的临场判断力,而不是背书本答案。
三个阶段听起来顺理成章,但研究团队真正想弄清楚的是:这三个阶段是不是简单地"叠加"就能带来更好的效果?每增加一个阶段,模型是否都在变得更好?
三、监督微调是把双刃剑:学得越多,却越"固执"
研究团队进行了一系列精心设计的实验,每次只改变一个变量,保持其他条件不变。关于监督微调阶段的发现是整项研究中最出人意料的部分之一。
在固定训练数据量、只增加训练轮次的情况下,研究团队发现了一个清晰的规律:随着训练轮次的增加,模型在熟悉题目上的表现持续提升,但在陌生题目上的表现却在某个节点之后开始下滑。以DNA通路预测任务为例,一个模型在训练了1轮之后,熟悉题目的准确率约为68%,陌生题目约为68%,两者旗鼓相当。但随着训练增加到16轮,熟悉题目的准确率爬升到了90%,而陌生题目的准确率在2到4轮时达到了约73%的峰值,此后便开始回落,最终跌回到68%左右。
用烹饪来解释这个现象非常直观。一个大厨如果在同一家餐厅里反复练习同一批菜,练到后来他确实越来越擅长做这几道菜,但他对这家餐厅的食材、火候、摆盘习惯产生了深度依赖。把他换到别的厨房,他可能反而比刚入行时更不适应——因为他已经把"这家餐厅的做法"当成了"做菜的真理"。这种现象在生物学AI里尤其危险,因为真正有价值的是模型能否在陌生的生物系统里保持推理能力。
这个发现在RNA药物靶点识别和蛋白质功能预测任务中同样出现,甚至表现得更为明显。RNA实验中,模型陌生任务的准确率从峰值到训练结束时下降了约18个百分点,且下降过程几乎是单调连续的,而不是在某个点达到平台后维持稳定。
研究团队还做了另一组实验:保持训练轮次固定为1轮,但逐步增加训练数据量。结果发现,这种方式比增加训练轮次要"温和"得多。随着数据量从4000个样本增加到20000个,模型在陌生题目上的表现基本呈现稳定上升或平台趋势,而不会出现先升后降的崩塌现象。这说明,同样多的训练算力,花在"看更多不同例子"上,比花在"反复看同样的例子"上,对泛化能力的伤害要小得多。
研究团队将这个核心发现归纳为:监督微调能快速提升模型在训练分布上的表现,但随着训练深度增加,模型会逐渐收缩到训练数据的分布范围内,失去面对生物多样性时的灵活性。
四、强化学习是解药,但需要在正确的时机服用
既然监督微调会造成"过度专化",强化学习能不能修复这个问题?研究团队的答案是肯定的——但有条件。
研究团队从每个任务中挑选出监督微调的最佳检查点(也就是陌生任务表现最好时的模型状态),然后在此基础上继续进行强化学习训练,观察结果如何变化。实验结果相当令人鼓舞:在DNA、RNA和蛋白质三种任务上,强化学习几乎都同时提升了熟悉任务和陌生任务的表现,而且陌生任务的提升幅度往往更大。
以蛋白质功能预测任务为例,从第1轮强化学习到最佳检查点,陌生任务的评分(F值,用于衡量预测质量)提升了约0.08个绝对值,这在生物信息学领域是相当可观的进步。更重要的是,强化学习带来的改善并没有以牺牲熟悉任务表现为代价——两个方向都在变好,只是陌生方向的进步更显著。
还有一个规律值得注意:强化学习的收益集中在最初几轮。也就是说,第1轮的提升最明显,之后每增加一轮,额外收益就越来越小。这就像一个大厨在真实比赛中的前几场历练获益最大,之后提升逐渐趋缓。这个规律给出了一个实用的操作建议:强化学习不需要无限增加,在合适的时机停止反而是明智之举。
然而,研究团队也发现,强化学习的效果高度依赖于出发点的质量。如果监督微调阶段做得太差,直接进入强化学习,模型可能无法从反馈信号中有效学习。好比一个连基本刀工都没学会的厨师去参加高级评分比赛,没有任何基础的话,客人的评分对他来说也是噪音,不知道怎么改进。强化学习需要一个"够好的监督微调起点",才能发挥出真正的威力。
五、最被低估的准备工作:持续预训练是隐形的地基
在三个训练阶段中,持续预训练往往是最容易被忽视的一环,因为它不直接解决任何具体任务,看起来像是"绕路"。但研究团队的实验数据清楚地表明,这个"绕路"阶段对后续一切训练的质量都有深远影响。
在DNA和RNA实验中,研究团队分别比较了"有持续预训练"和"没有持续预训练"两条路线下的最终模型表现。结论是:持续预训练在几乎每一个后续训练阶段都带来了可见的提升,但这个提升的幅度因阶段不同而差异巨大。在监督微调阶段,改善相对有限;但在强化学习阶段,尤其是在陌生任务上,持续预训练的加持带来了显著更大的收益。
对于规模较小的模型(如参数量为17亿的版本),这个效果尤为明显。在DNA任务的陌生测试中,有持续预训练的模型比没有预训练的版本整体提升了约0.2个准确率单位——这不是小数字。研究团队的解释是:没有经过生物学语言熏陶的通用语言模型,在面对监督微调和强化学习时,需要同时学习三件事:生物学语言规范、任务的格式要求、以及真正的推理逻辑。把三件事同时塞给模型,每件事都学得不够透彻。持续预训练先把"生物学语言感觉"建立起来,让后续训练可以专注于更高层次的推理能力培养。
这个发现特别适用于计算资源有限的研究团队:与其把全部预算花在反复监督微调上,不如先拨出一部分算力做持续预训练,为后续的强化学习打好地基,最终的陌生任务表现往往更好。
六、更大的模型只是把上限抬高,并不改变游戏规则
一个自然的疑问是:如果换用更强大的基础模型,上述这些规律是否还成立?研究团队在RNA任务上专门针对这个问题做了实验,额外引入了谷歌DeepMind的Gemma 4 E2B模型作为对照,与两个Qwen3系列模型(1.7亿和4亿参数)一起比较。
结果颇具说服力。不同底层模型的绝对表现存在差异——更强的基础模型确实能达到更高的性能上限。但训练动态的基本形态保持一致:监督微调仍然导致熟悉任务提升、陌生任务先升后降的模式,强化学习仍然更有效地改善陌生任务表现。Gemma模型在某些情况下的强化学习阶段表现得更为平稳,不像较小的Qwen模型那样在开始强化学习时会出现短暂的性能回落,但这只是幅度和流畅度上的差异,而非本质规律的改变。
用烹饪来类比:把一个普通人和一个天赋异禀的厨艺学徒放在同样的培训流程里,天赋更好的那个最终水平更高,但两个人都会经历"练一道菜越来越熟练、但越来越不会举一反三"的阶段,区别只在于更有天赋的人这个阶段来得晚一些、回落幅度小一些。
这个发现有一个实用意义:如果你没有条件使用最大最强的模型,你仍然可以通过合理配置训练策略来最大化模型的泛化能力,而不必把所有赌注压在"用更大的模型"这一条路上。
七、容量分配的艺术:强化学习需要"轻装上阵"
研究团队还深入研究了一个更细节的技术问题:在模型的可训练参数量上,监督微调和强化学习分别应该分配多少?这涉及到一种叫做LoRA的技术——简单来说,这是一种让大模型局部更新的方法,通过控制"调整层的大小"(称为"秩")来控制模型改变自身的幅度。
研究团队系统地测试了不同的秩组合。结论是:监督微调阶段需要较高的秩(更大的调整空间),而强化学习阶段反而在较低的秩下表现更好。具体来说,监督微调用256的秩、强化学习用16的秩,比两个阶段都用64的秩效果更好。
这个规律直觉上也说得通。监督微调要教会模型理解任务格式、生物学专业知识和推理模式,需要足够的"容量"来吸收这些多样化的信息。但强化学习的任务是在已有知识基础上微调决策策略,如果给了太大的调整空间,反而容易过拟合,把奖励信号学歪了。小幅精准的调整,比大幅粗放的调整,更能保留模型已经建立起来的生物推理能力。
回到厨师比喻:学习菜谱和技术时,你需要大量笔记和笔记本(高秩);但在比赛中临场调整风格时,只需要在脑子里做几个细微的修正(低秩),如果这时候还一直在翻阅笔记、大幅改变做法,反而会手忙脚乱。
八、如何在固定预算内取得最好的熟悉-陌生平衡
最后,研究团队还做了一个非常实用的实验:把总训练"步数"固定为8步,然后测试不同的监督微调与强化学习步数比例,看哪种分配方案能带来最好的综合表现。
结果清楚地显示,最优方案既不是"全部用监督微调"也不是"全部用强化学习",而是在中间某个合适的比例。具体来看,用1到3步做监督微调、剩余步数全部做强化学习,是陌生任务表现最好的配置范围。如果把大部分步数都花在监督微调上,陌生任务表现会显著下滑;如果完全不做监督微调、直接上强化学习,模型也因缺乏基础而表现不佳。
用一个直观的说法:先用少量时间建立任务基础,剩余时间全力练习临场应变,比把大部分时间用来反复练习固定菜谱、只留少量时间临场发挥,要聪明得多。监督微调负责打底、建立框架,强化学习负责破圈、拓展边界,两者缺一不可,但比例至关重要。
在数据固定、只变步数比例的情况下,DNA任务中,Qwen3-1.7B和Gemma模型都在"2步监督微调+6步强化学习"附近取得了陌生任务的峰值准确率,约78%左右,而"8步全部监督微调"时陌生任务准确率约71%,"8步全部强化学习"时陌生任务准确率更低,约62%。这种差距在RNA任务上体现得更为明显。
说到底,这项研究最核心的贡献不是某个新算法或新模型,而是一套系统性的"训练智慧"。三个训练阶段并不是简单地越多越好——持续预训练是铺底的地基,监督微调是建立任务能力的主体结构,强化学习是帮助模型真正破墙而出、应对真实世界多样性的最后一道工序。关键在于,每个阶段都有其适合的比例和参数设置,盲目地加大任何一个阶段的投入,都可能以牺牲另一维度的能力为代价。
这对生物医学AI领域的实际从业者意味着什么?意味着在有限的计算资源下,花时间思考"怎么训练"比单纯追求"训练多少"更有价值。意味着在发布一个生物AI模型时,不能只看它在熟悉数据上的漂亮分数,而必须认真评估它在陌生生物系统上的表现。归根结底,一个只会在训练数据范围内表现出色的生物推理模型,在真正面对未知疾病、未知基因、未知物种时,很可能无从下手。而那才是生物医学AI真正需要解决的问题。
感兴趣的读者可以在arXiv平台通过论文编号arXiv:2606.16517查阅完整论文,也可以访问研究团队在GitHub上开源的代码库和Hugging Face上的模型检查点,自行复现或扩展这些实验。
Q&A
Q1:生物AI模型训练时,监督微调做多少轮合适?
A:研究发现监督微调并非越多越好。在固定数据量下,陌生任务的表现通常在2到4轮时达到峰值,之后随训练轮次增加反而下滑。如果目标是让模型在未见过的生物系统上也能泛化,建议早停监督微调,之后转入强化学习阶段。DNA任务实验中,16轮时熟悉任务准确率达90%,但陌生任务已从73%的峰值回落至68%。
Q2:强化学习为什么能提升生物AI的泛化能力?
A:强化学习通过让模型自己尝试并接受奖惩反馈来优化策略,而不是模仿固定答案,因此不会像监督微调那样把模型"锁定"在训练数据的分布里。实验显示,在强监督微调检查点基础上进行强化学习,陌生任务表现能获得显著提升,而且大部分收益集中在最初几轮,无需无限增加训练量。
Q3:持续预训练对生物推理模型有多大影响?
A:影响相当显著,尤其是对较小的模型。实验中,有持续预训练的Qwen3-1.7B在DNA陌生任务上比无预训练版本提升了约0.2个准确率单位。其作用在于提前让模型建立生物学语言感觉,使后续监督微调和强化学习能专注于更高层次的推理能力,而不必同时处理语言和任务两个维度的学习压力。