深度思维(DeepMind)公司28日在《自然》杂志发表论文,展现了其大模型“阿尔法基因组”(AlphaGenome)解码基因的“超能力”。该模型不仅能预测长达100万碱基对的DNA序列功能,还能预测DNA序列变异如何影响不同生物过程。其将推动理解遗传疾病、改进基因检测,为开发新疗法提供信息。
基因变异会影响生物学过程并可能引发疾病,但理解DNA序列变化如何影响其功能是个难题。大多数变化(约98%)发生于非编码区域(不编码蛋白质但影响基因表达的DNA区域),使得预测其影响变得困难。解决这一问题需要计算模型。现有方法在序列长度和预测强度上必须作出取舍,但去年6月推出的深度学习模型“阿尔法基因组”,宣称能在长DNA序列中作出高分辨率预测。
此次,深度思维团队详细展示了“阿尔法基因组”的能力。这一模型用人类和小鼠基因组训练来学习DNA序列如何影响不同生物学过程。“阿尔法基因组”可即时预测5930种人类或1128种小鼠遗传信号,这些信号与特定功能有关,如基因表达、剪接(基因组的切割与重组)和蛋白质修饰。在26项变异效果预测评估中,其结果在25项中与现有顶尖模型表现相当或更优。研究团队指出,该模型优势在于能同时对多种遗传信号和生物学结果进行多重预测。
研究团队表示,进一步改进这一工具或能拓展其应用,例如增加涵盖的物种,或拓展模型能识别的非编码序列范围。他们总结说,“阿尔法基因组”有望深化对DNA序列变异引发的复杂生物学结果的理解。
先前的模型必须在序列长度和分辨率之间作出权衡,这制约了它们准确预测的范围。而深度思维的技术进步,在不必显著增加训练资源的前提下,解决了这一限制。据稍早时间报道称,训练单个“阿尔法基因组”模型约耗时4小时。