DC娱乐网

Nature Biotechnology | 仅仅知道序列就能造药?A...

引言在当今的生物医药领域,我们正处于一场静悄悄却惊心动魄的变革之中。长久以来,药物研发的中心法则几乎都围绕着蛋白质展开,

引言

在当今的生物医药领域,我们正处于一场静悄悄却惊心动魄的变革之中。长久以来,药物研发的中心法则几乎都围绕着蛋白质展开,但人类基因组中只有约1.5%的序列编码蛋白质,而绝大多数基因转录为非编码RNA。这片浩瀚的“暗物质”海洋中,蕴藏着无数调控疾病的关键开关。

然而,RNA药物研发一直面临着一座难以逾越的大山:三维结构(Tertiary Structure)的缺失。传统的理性药物设计(Rational Drug Design)很大程度上依赖于“锁钥模型”:我们需要精确知道靶点(锁)的三维结构,才能设计出严丝合缝的药物(钥匙)。不幸的是,与折叠稳定的蛋白质不同,RNA就像一条灵动的丝带,其三维结构高度动态且难以通过晶体学手段捕获。在蛋白质数据库(PDB)中,已解析的RNA-小分子复合物结构极其稀缺。

难道没有确定的三维结构,我们就无法设计针对RNA的小分子药物吗?1月2日,《 Nature Biotechnology 》的研究报道“Predicting small molecule–RNA interactions without RNA tertiary structures” ,这项研究打破了对RNA三维结构的依赖,提出了一种仅基于RNA序列和二级结构就能精准预测小分子-RNA相互作用(SRIs)的深度学习模型——SMRTnet。这不仅仅是一个新工具的诞生,更是一种研发逻辑的代际跨越。

告别三维迷信:降维打击的智慧

在深入SMRTnet的内核之前,我们先来思考一个问题:为什么之前的预测工具效果不佳?许多早期的计算方法,如分子对接(Molecular Docking)软件AutoDock Vina,或是基于深度学习的RNAmigos2,本质上都受困于对“口袋”三维形状的执着。如果输入的RNA三维结构本身就是通过算法预测的,那么误差就会级联放大。

SMRTnet的研究人员选择了一条不同的路:放弃不确定的三维结构,拥抱更易获取的二级结构。

SMRTnet的核心架构是一个巧妙的多模态数据融合系统(Multimodal Data Fusion, MDF)。它并不是简单地将数据“喂”给神经网络,而是构建了两个强大的“语言专家”:

1. RNA编码器

集成研究团队自研的RNA语言模型 RNASwan-seq。该模型在高达2.14亿个非冗余RNA序列上进行了预训练,能够深刻理解核苷酸序列的语法规则。同时,结合卷积神经网络(CNN)提取RNA的二级结构特征(即碱基配对信息)。

2. 小分子编码器

采用化学语言模型 MoLFormer和图注意力网络(GAT),分别从SMILES字符串和分子图结构中提取化学特征。

这种设计使得SMRTnet拥有了惊人的“阅读理解”能力。在包含1061个高质量晶体结构的PDB数据集上,研究人员通过滑动窗口策略生成了8672个相互作用片段进行训练。结果显示,在五折交叉验证中,SMRTnet的接收者操作特征曲线下面积(auROC)达到了 0.830–0.844。

这是一个什么概念?作为对比,目前领域内领先的工具RNAmigos2在相同测试集上的auROC仅为 0.567–0.596。换句话说,SMRTnet将预测的准确度提升到了一个新的维度。

更值得深思的是,研究人员进行了一项“消融实验”(Ablation Study)。当他们移除了RNA二级结构信息,仅保留序列信息时,模型的性能出现了显著下降(auROC从0.844降至0.760)。这有力地证明了,虽然我们不需要三维结构,但二级结构(碱基如何配对、形成了什么样的茎环)是决定小分子能否结合的关键“指纹”。

大海捞针:在7350种化合物中寻找答案

模型在计算机上的跑分高,并不代表在现实世界中能用。真正的考验在于:它能否在茫茫的化合物库中,筛选出真正能结合疾病相关RNA的药物?

为了验证这一点,研究人员构建了一个包含 7,350种天然产物和代谢物的实体化合物库,并选择了10个具有高度临床价值但结构各异的疾病相关RNA靶点进行筛选。这些靶点包括:

● 致癌因子:如MYC基因的内部核糖体进入位点(IRES)、Pre-miR-155、HOTAIR Helix 7;

● 病毒RNA:HIV-1 RRE IIb,以及SARS-CoV-2的5'非翻译区(5' UTR)中的五个结构元件(SL1, SL2/3, SL4, SL5a, SL5b);

● 神经退行性疾病靶点:HTT基因的CAG重复扩增序列。

这是一场完全脱离已知三维结构先验知识的“盲测”。SMRTnet对这7万多个“RNA-小分子”组合进行了打分。随后,研究人员选取了排名靠前的候选分子,利用 微量热泳动(MST)技术进行了湿实验验证。

结果令人震惊:在预测的候选分子中,有 40个分子被实验证实能够与对应的RNA靶点结合。这些分子的解离常数($K_d$)跨度很大,从纳摩尔(nM)级别到微摩尔(µM)级别,其中有6个相互作用的亲和力达到了纳摩尔级。

对于药物筛选而言,这是一个非常可观的命中率。更重要的是,SMRTnet不仅能找到结合分子,还能区分特异性。例如,针对SARS-CoV-2不同茎环结构(SL1 vs SL5b)预测出的结合分子截然不同,这表明模型捕捉到了RNA二级结构中细微的构象差异。

攻克“癌症之王”:MYC IRES的精彩案例

在所有测试的靶点中,MYC无疑是最具挑战性的一座高峰。作为一种在大多数人类癌症中过度表达的转录因子,MYC长期以来被认为是“不可成药”(Undruggable)的,因为其蛋白结构缺乏适合小分子结合的深口袋。因此,靶向其mRNA的翻译过程,特别是通过IRES进行的非帽依赖性翻译,成为了极其诱人的策略。

研究人员利用SMRTnet对针对 MYCIRES 的筛选结果进行了更深度的验证。他们采用分层抽样策略,从预测分数高低不同的区间中随机抽取了376个化合物进行实验。

数据揭示了模型预测分数与实际结合率之间极强的相关性:

在预测分数 0.9–1.0的区间内,实验验证的阳性率达到了28.6%;

随着预测分数降低,阳性率呈现阶梯式下降;

在预测分数 0.0–0.1的低分区间,测试的93个化合物中没有一个显示出结合活性(0%)。

这种清晰的量效关系(Dose-Response Relationship)是评估一个AI模型可靠性的黄金标准。它意味着SMRTnet给出的分数不仅仅是一个数字,而是真实反映了物理化学层面的结合概率。

在这次筛选中,一个名为 伊立替康盐酸盐三水合物(Irinotecan hydrochloride trihydrate, IHT)的药物脱颖而出。伊立替康本是知名的拓扑异构酶I抑制剂,但SMRTnet预测它能以高亲和力结合MYCIRES。

这是否意味着老药可以新用?为了回答这个问题,必须搞清楚它是“怎么”结合的。

AI的“注意力”与分子的“锁孔”

SMRTnet的一个重要特性是它的可解释性。通过分析模型中的梯度信号(Gradient Signals),研究人员可以识别出RNA序列上哪些核苷酸对预测结果贡献最大。这些区域被称为 高关注区域(High-Attention Regions, HARs)。

对于 MYCIRES,SMRTnet将目光锁定在了一个特定的内部环(Internal Loop)上:5' UUCG / 3' ACCC。模型预测,IHT正是嵌入这个微小的结构口袋中。

为了验证这一预测的精准度,研究人员设计了一组极其严密的突变实验。他们构建了 20种MYCIRES 的突变体,分为五类,包括改变内部环序列、缩小或扩大内部环,以及完全消除内部环(使其变成全配对的双链结构)等。

MST实验的结果与SMRTnet的预测惊人地一致:

▼ 实验发现 1:

当内部环被移除,突变体变成完全配对的双链结构时,SMRTnet预测的结合分数跌至谷底,实验也证实IHT完全失去了结合能力。

▼ 实验发现 2:

当2×2的内部环被改变为3×3时,预测分数和实验测得的结合能力反而有所上升,暗示这种构象可能更有利于IHT的嵌入。

这一系列证据构建了一个完整的逻辑链条:AI不仅预测了“谁”会结合,还正确指出了“哪里”结合,甚至预测了结构变化对结合能力的具体影响。这种精度,对于缺乏三维结构信息的预测工具来说,在过去是难以想象的。

从试管到细胞:生物学功能的真实调控

结合只是第一步,能在细胞内发挥功能才是药物研发的终极目标。既然IHT能结合 MYCIRES,它能抑制癌细胞中的MYC蛋白表达吗?

研究人员在HeLa(宫颈癌细胞)、Jurkat(T淋巴细胞白血病细胞)和Raji(伯基特淋巴瘤细胞)三种依赖MYC生长的癌细胞系中测试了IHT的效果。实验数据令人振奋:

mRNA与蛋白水平的双重抑制

在HeLa细胞中,10 µM的IHT处理48小时后,MYC的mRNA水平下降了约56.9%,而MYC蛋白水平下降了约71.6%。

细胞功能的改变

在三种癌细胞系中,IHT处理导致细胞增殖被抑制了 19.6%–48.4%,同时细胞凋亡率激增了56.6%–124.2%。

为了排除IHT通过其他途径(如原本的拓扑异构酶抑制作用)影响MYC的可能,研究人员使用了一种精巧的双荧光素酶报告系统。结果显示,IHT特异性地降低了由 MYCIRES 驱动的荧光素酶活性(下降约14.2%),而对完全配对突变的对照组没有影响。这意味着,IHT确实是通过直接结合并干扰IRES的功能来发挥作用的。

更有趣的是,研究人员将IHT与一种专门设计的降解剂 MYC-RiboTAC进行了对比。数据表明,在降低MYCmRNA和蛋白水平方面,IHT的效果甚至超过了MYC-RiboTAC。这是一个非常积极的信号,说明通过AI筛选出的先导化合物,即使在未经化学修饰优化的情况下,也已具备相当的生物活性。

药物发现的新纪元

SMRTnet的出现,标志着我们在RNA药物发现领域迈出了关键的一步。它证明了,通过深度学习融合大规模预训练模型,我们可以在完全不知道RNA三维结构的情况下,仅凭序列和二级结构信息,就能高效、准确地预测小分子与RNA的相互作用。

这项研究的意义远不止于发现了一个IHT。它为我们提供了一把通用的钥匙,去开启那些曾被认为“不可成药”的宝库。从病毒基因组的保守区域,到驱动癌症的非编码RNA,SMRTnet极大地拓展了潜在药物靶点的版图。

当然,目前的SMRTnet并非终点。研究人员也坦诚,目前经实验验证的数据相对于庞大的化学空间来说仍然有限。未来,随着高通量筛选技术产生更多的大规模数据集,以及多组学数据(如基因表达谱)的整合,这类AI模型将进化出更强大的能力——不仅预测结合,还能预测结合后的生物学后果。

当下一次听到“无药可救”或“不可成药”时,请记住,在AI的视野里,也许根本不存在绝对的“不可”。在这个由核苷酸序列编织的生命密码中,新的治疗希望正在被一行行代码解码。

参考文献

Fei Y, Wang P, Zhang J, Shan X, Cai Z, Ma J, Wang Y, Zhang QC. Predicting small molecule-RNA interactions without RNA tertiary structures. Nat Biotechnol. 2026 Jan 2. doi: 10.1038/s41587-025-02942-z. Epub ahead of print. PMID: 41482542.

声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!