引言
人工智能正以前所未有的速度席卷生命科学领域。面对呈指数级增长的基因组数据,如何精准预测决定转录本功能和调控机制的成熟核糖核酸(RNA)特性,始终是一项极具挑战性的核心难题。
目前,预训练的基因组基础模型为我们将表征学习应用于生物学预测任务提供了一条新路径。然而,现有的模型大多直接套用自然语言处理领域的训练策略,未能将生物学领域的专业知识融入其中。
4月17日,《Nature Methods》的研究报道“Orthrus: toward evolutionary and functional RNA foundation models”,为打破这一僵局提供了全新的范式。研究人员引入了一种名为Orthrus的成熟RNA基础模型,该模型基于Mamba架构构建,采用生物学数据增强的自监督对比学习(Contrastive Learning)目标进行预训练,展现出了远超同侪的预测能力。
摆脱“文字游戏”:构建基于进化和功能的生物学表征在过去几年中,利用深度神经网络在海量数据集上进行预训练的基因组基础模型层出不穷。这些模型大多采用自监督学习(Self-Supervised Learning)目标,最典型的是掩码语言建模(Masked Language Modeling, MLM)或下一个标记预测(Next-Token Prediction, NTP)。这种策略的逻辑非常直观:将DNA或RNA序列视作一段文本,遮住其中一部分“字母”,让模型去猜缺失的部分。
如果将生命密码单纯等同于文本,这种策略似乎完美无缺。然而,自然界中的基因组序列受到进化生存能力的严格约束,导致来自同一物种的基因组之间自然多样性极低,而互信息极高。在人类DNA中,仅有约2%的区域是编码区,大约10%的基因组处于进化约束之下,这部分可以被视为具有高信息含量的区域。剩余约90%的遗传序列缺乏负向选择(Negative Selection)的证据,这意味着这些区域发生的突变可能对生物体的适应性几乎没有影响。
在这种缺乏强生物学归纳偏置(Inductive Bias)的情况下,现有的基于重建目标的自监督模型往往会将计算资源和模型容量浪费在重建那些没有实际生物学信息的“无效字符”上,最终导致模型生成的表征在进行mRNA特性预测任务时表现不尽如人意。面对这一困境,一些研究转向了不断增加模型参数量的暴力破解法,将参数规模扩大到数十亿级别。然而,这种依靠算力堆砌带来的性能提升,往往与高昂的计算成本不成比例,边际效益递减现象十分严重。
Orthrus模型的切入点与众不同。研究人员跳出了单纯的文本重建思路,提出了一种受生物学启发的对比学习目标。该模型通过最大化进化相关转录本和剪接异构体之间的嵌入(Embedding)相似性,来重塑模型的潜在空间(Latent Space)。这意味着,Orthrus不再纠结于盲目猜测序列中缺失的碱基,而是试图理解哪些序列变异是保持生物学功能不变的,哪些变异是导致功能分歧的。
进化的馈赠与剪接的变奏:确立对比学习的“正样本”要让对比学习发挥作用,核心在于如何构建高质量的“正样本对”(Positive Pairs)。在计算机视觉中,正样本可能是一张猫的图片经过裁剪或翻转后得到的新图片,模型被要求认出它们其实是同一只猫。但在RNA序列的世界里,如何定义两段序列在功能上是“相同”的?
研究人员巧妙地利用了自然界自身的两种机制:可变剪接(Alternative Splicing)和物种形成(Speciation)。
首先,可变剪接是真核生物增加转录组和蛋白质组复杂性的关键机制。研究人员汇集了十种后生动物(包括人类、小鼠、鸡、秀丽隐杆线虫、黑猩猩、牛、狗、果蝇、大鼠和斑马鱼)的剪接注释数据。尽管由不同外显子组合产生的可变剪接mRNA异构体在序列上存在差异,且有时会获得新的功能,但从整体统计意义上看,来自同一基因的异构体之间的功能相似性,要远高于随机抽样的两个转录本。模型通过学习这些因外显子组合不同而产生的序列多样性,能够识别出保留核心功能的序列模式。
其次,伴随哺乳动物物种形成而产生的直系同源(Orthologous)转录本提供了另一种保留功能的序列多样性来源。研究人员利用了Zoonomia项目中的数据,该项目对来自400多个哺乳动物物种的转录本进行了联合基因注释和直系同源推断,并将其映射到人类和小鼠的注释上。通过对识别出的编码序列以及相邻的内含子和基因间区域进行比对,模型得以接触到那些在漫长的进化时间尺度上由于负向选择而被高度保守的转录本区域。这些在千万年岁月洗礼中未曾改变的区域,往往具有极其重要的功能,并且与mRNA的代谢过程息息相关。
基于这两种天然的生物学增强手段,研究人员构建了一个极其庞大的对比学习数据集,包含了3200万个独特的转录本,并生成了超过8.87亿个独特的正样本对。每一个正样本对都由一个参考RNA转录本和一个从相关成熟RNA序列集合中采样的转录本组成。模型在预训练阶段的核心任务,就是在其潜在空间中拉近这些具有进化或剪接渊源的“正样本”,同时推开那些毫无关联的转录本。这种训练方式迫使Orthrus将注意力集中在那些具有高信息含量的保守区域,从而构建出高度结构化且具备生物学意义的特征表征。
“四两拨千斤”的架构突围:重塑序列建模的算力性价比基于上述创新的预训练目标,模型需要一个强大的骨干网络来进行特征提取。面对动辄长达上万个核苷酸的成熟mRNA序列,传统的Transformer架构面临着内存消耗随序列长度呈二次方增长的计算瓶颈。为了打破这一限制,Orthrus采用了Mamba架构作为其序列编码器。
Mamba架构在处理长序列时具有多项显著优势:首先是可变基序间距(Variable Motif Spacing)的学习能力,这对于解析基因组序列中位置不固定的调控元件至关重要;其次是上下文过滤(Context Filtration)能力,能够有效剔除缺乏生物学信息的冗余序列;最重要的是,其内存需求随序列长度呈线性扩展,极大地降低了计算开销。
Orthrus模型系列包含三个版本:参数量为130万的Orthrus Small模型,参数量为1010万的Orthrus标准模型,以及同样拥有1010万参数、结合了对比学习和掩码语言建模双重目标的Orthrus MLM模型。
值得注意的是,Orthrus以极小的参数体量展现出了惊人的预测效能。在针对一系列mRNA特性预测任务的线性探测(Linear Probing,即冻结预训练模型参数,仅训练一个线性分类或回归层)评估中,Orthrus的表征能力得到了充分的验证。在预测包括非翻译区(UTR)长度、外显子数量、编码序列(CDS)长度和转录本类型等基础结构属性时,基于Orthrus嵌入训练的线性模型给出了极其准确的预测结果。
更具代表性的是,在包含七个不同任务的严格基准测试中,仅有1010万参数的Orthrus,其表现匹敌甚至超越了参数量高达70亿的Evo2模型。面对参数量是自己700倍的庞然大物,Orthrus凭借基于生物学基础的训练目标实现了“四两拨千斤”。在人类mRNA半衰期(mRNA Half-life)这一预测难度极高的任务中,Orthrus MLM模型是唯一一个在仅使用线性探测时就能达到与全监督模型基线相当水平的自监督模型(Pearson相关系数达到了0.71)。这一数据清晰地表明,只要预训练的表征空间足够优秀,下游应用往往只需最简单的线性回归,就能省去针对特定任务重新训练复杂神经网络的高昂成本。
在一项为了量化各种设计选择对模型性能影响的消融研究中,研究人员将各任务的性能指标转化为z-score进行统一比较。数据证实了各个环节的必要性:仅使用对比学习(CL)目标的平均z-score达到了0.90,显著高于仅使用掩码语言建模(MLM)的0.71。而将直系同源转录本作为正样本引入训练,相比于仅使用掩码增强,带来了巨大的性能跃升(z-score从-0.55提升至-0.11)。在模型架构对比方面,参数量对等的Mamba架构(z-score为0.90)以绝对优势碾压了膨胀卷积神经网络(Dilated CNN,z-score为-0.23)和大型Saluki架构基线(z-score为-0.53)。
跨越数据鸿沟:极小样本环境下的精准预测范式在真实的生命科学研究场景中,高质量的实验标记数据往往极其稀缺且获取成本高昂。例如,测量mRNA半衰期需要复杂的实验操作,不同实验方法之间还存在很大的差异和噪声;而测定平均核糖体载量(Mean Ribosome Load, MRL)以评估mRNA的翻译效率,同样依赖于通量有限的核糖体图谱分析技术。如果一个计算模型只能在拥有海量标记数据的情况下才能发挥作用,那么它的实际应用价值将大打折扣。
Orthrus在应对“少样本学习”(Few-shot Learning)时展现出了极高的鲁棒性。研究人员在模拟实验数据极度受限的场景下,对模型进行了全面微调(Fine-tuning)测试。当训练数据量缩减至原数据集的极小部分(例如仅有300到100个数据点)时,从头开始训练(Ab initio)的传统监督方法往往会发生严重的过拟合,预测性能出现断崖式下跌;而Orthrus依然能够保持极具竞争力的预测水准。
在最极端的测试条件下,研究人员仅提供30个带标签的训练样本来微调人类mRNA半衰期预测器。结果显示,在这个数据量几乎不足以支撑任何深度学习模型训练的极小样本空间内,Orthrus依然达到了完整监督模型性能的71%(Pearson相关系数为0.74,而完全缺乏预训练的监督模型仅为0.53)。这一组对比数据不仅证明了Orthrus在解决基因组学数据效率难题上的巨大潜力,更意味着该模型已经从海量的无标签进化数据中内化了关于RNA稳定性和代谢机制的深层规则,下游任务只需要极少的“提示”就能唤醒这些被封存的知识。
洞穿序列的伪装:深入捕获异构体的功能分歧与协同不仅要预测转录本的全局特性,能否在模型潜在空间中将具有相同或不同功能的RNA异构体区分开来,是衡量一个表征模型是否真正理解RNA生物学的终极试金石。研究人员对Orthrus的潜在空间进行了深度解析,以探究其是否能够捕捉同一基因不同异构体之间微妙的功能分歧。
首先,研究人员计算了同一蛋白质编码基因不同转录本之间的Orthrus嵌入相似度。通过与随机基因对的转录本相似度进行统计学比较,数据证实Orthrus的训练目标有效地保留了基因内的序列多样性信息。一个更核心的发现是,当比对每一对转录本中注释的蛋白质结构域时,那些蛋白质结构域重叠度高的转录本,其Orthrus嵌入的相似度也极高(Spearman等级相关系数中位数为0.37,Pearson相关系数为0.45)。这种相关性显著高于使用转录本长度或整体序列重叠度等基线指标进行比较的结果,这说明Orthrus不仅是在比对序列字符的异同,更是在提取由蛋白质结构域编码的功能差异信息。
虽然转录本序列的重叠(特别是在编码区CDS)会在一定程度上促进RNA嵌入的相似性(两者之间的Pearson相关系数达到了0.66),但Orthrus捕获的功能相似性变异远超出了单纯序列相似性的范畴。研究人员展示了极具说服力的微观案例。
例如,在分析IQCF6基因时,其异构体对具有高达0.93的编码序列重叠度。如果仅从序列出发,任何常规算法都会认为它们功能高度一致。然而,Orthrus给出的相似度却仅为0.84(处于极低的1.52百分位),果断预测它们在功能上存在明显分歧。为了验证这一预测,研究人员使用AlphaFold3对这些异构体的编码序列进行了三维结构预测,并对结构进行了比对。结果显示,这两者的均方根误差(RMSD)高达16.1 Å,整体结构比对度极低。Orthrus的评分与AlphaFold3的结构预测结果出奇地一致。
而在相反的案例中,例如PANK2和TAFAS基因,它们的异构体之间的编码序列重叠度非常低(Jaccard指数小于0.6,处于最低的20百分位)。然而,Orthrus却给出了高达2.30和2.12的嵌入相似度预测(分别处于第60和55百分位)。后续的AlphaFold3结构预测证实,尽管这些序列在编码区大相径庭,但它们的RMSD值仅为0.55 Å和0.15 Å,在三维折叠结构上表现出了惊人的相似性。这些数据有力地证明,Orthrus的嵌入深刻编码了与最终蛋白质产物紧密相关的功能维度的信息,它能够穿透底层序列差异的伪装,直达功能的本质。
这种捕获功能多样性的能力在聚类分析中得到了更直观的体现。BCL2L1基因是一个著名的例子,其通过可变剪接产生的异构体在细胞凋亡通路中扮演着截然相反的角色。主流异构体编码抗凋亡蛋白Bcl-X(L),而少数异构体则编码促凋亡蛋白Bcl-X(S)。在使用Orthrus嵌入相似度对BCL2L1的所有RNA异构体进行无监督聚类时,模型清晰地将它们划分为两个主要的功能组:促凋亡的BCL2L1-202和BCL2L1-205形成了一个独立的簇,与庞大的抗凋亡转录本簇壁垒分明。
另一个经典案例是OAS1基因。该基因的两个主要异构体p42(OAS-203)和p46(OAS-201)具有截然不同的抗病毒功能和细胞定位。异构体p46能够进行异戊二烯化(Prenylation)这种翻译后修饰,增加疏水的脂质基团,使其能够锚定在反面高尔基体(trans-Golgi compartment)等膜性细胞器上,有效阻断SARS-CoV等病毒的复制。相反,p42异构体缺乏异戊二烯化修饰,只存在于细胞质基质中,不具备抑制病毒复制的能力。Orthrus的嵌入网络再次准确捕捉到了这种细微却致命的差异,在聚类热图中,这两个异构体各自形成了边界清晰、互不干扰的独立簇。
此外,在对HAP1细胞系全基因组范围内外显子缺失对细胞适应性(Fitness)影响的预测任务中,Orthrus成功地根据外显子缺失前后嵌入向量的变化,将那些促进细胞适应性的外显子准确分类。在一项针对TAF5基因(其对于TFIID复合物的组装和细胞整体适应性至关重要)的分类雅可比(Categorical Jacobian)分析中,Orthrus的注意力网络敏锐地捕捉到了构成WD40重复结构域边界的核苷酸位置之间的相互依赖性,特别是准确地将导致适应性丧失的第8号外显子作为一个内聚的、不可分割的功能单元突出显示出来。
计算生命科学的底层重构让模型通过不同物种和不同剪接形式所带来的自然序列突变,去理解并隔离出维持生命运转的核心机制,这是一个具有里程碑意义的思路转换。这项研究不仅仅提供了一个高效的RNA特性预测工具,更重要的是,它为如何更好地将庞大的生物进化数据和深度学习模型结合提供了一个实实在在的标杆。
生命不是一本简单的密码本,而是一部经历了数十亿年编辑和校对的复杂典籍。当我们停止让AI盲目地去做“完形填空”,而是教它去理解不同物种、不同转录本在进化长河中沉淀下来的“相似性法则”时,AI才算真正迈出了理解生命语言的第一步。Orthrus模型正是这一底层重构的先驱,它在极小样本下的惊艳表现以及对转录本亚型功能分歧的精准洞察,预示着一个更为精准、高效的计算RNA生物学新时代的到来。对于众多受限于数据规模的基础研究和转化医学应用而言,这种具备深度生物学直觉的基础模型,无疑将成为推动下一轮关键发现的核心引擎。
参考文献
Fradkin P, Shi RI, Dalal T, Isaev K, Frey BJ, Lee LJ, Morris Q, Wang B. Orthrus: toward evolutionary and functional RNA foundation models. Nat Methods. 2026 Apr 17. doi: 10.1038/s41592-026-03064-3. Epub ahead of print. PMID: 41998407.
声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!