破解生命密码：新型人工智能模型学习DNA的隐藏语言

GROVER 是一种新型大型语言模型，由德累斯顿工业大学生物技术中心的研究人员根据人类 DNA 进行训练，它通过将 DNA 视为一种语言来解码复杂的基因组信息。这种创新工具有望彻底改变基因组学并加速个性化医疗的发展。

DNA对生命至关重要，其组织一直是一项重大的科学挑战。BIOTEC 开发的模型 GROVER 可以像文本一样解码 DNA，有望推动基因组学和个性化医疗的发展。

DNA 中蕴含着维持生命所必需的信息。破解这些信息的存储和组织方式一直是上个世纪最大的科学挑战之一。现在，借助 GROVER（一种以人类 DNA 为训练基础的新型大型语言模型），研究人员可以尝试解码隐藏在我们基因组中的复杂信息。GROVER 由德累斯顿工业大学生物技术中心 (BIOTEC) 的一个团队开发，它将人类 DNA 视为文本，学习其规则和上下文以提取有关 DNA 序列的功能信息。这款创新工具发表在《自然机器智能》杂志上，有可能彻底改变基因组学并加速个性化医疗。

自从发现双螺旋结构以来，科学家一直试图了解 DNA 中编码的信息。70 年后，人们清楚地认识到 DNA 中隐藏的信息是多层的。只有 1-2% 的基因组由基因（编码蛋白质的序列）组成。

“DNA 除了编码蛋白质之外，还有许多功能。一些序列调节基因，另一些序列用于结构目的，大多数序列同时发挥多种功能。目前，我们还不了解大多数 DNA 的含义。在理解 DNA 的非编码区域方面，我们似乎才刚刚开始触及表面。这正是人工智能和大型语言模型可以提供帮助的地方。”BIOTEC 研究小组负责人 Anna Poetsch 博士说。

DNA 作为一种语言

大型语言模型（如 GPT）彻底改变了我们对语言的理解。大型语言模型仅基于文本进行训练，因此具备了在多种语境中使用语言的能力。

“DNA 是生命的密码。为什么不把它当成一种语言呢？”Poetsch 博士说。Poetsch 团队在参考人类基因组上训练了一个大型语言模型。由此产生的工具名为 GROVER，即“通过提取表征获得的基因组规则”，可用于从 DNA 中提取生物学含义。

“GROVER 学习了 DNA 的规则。就语言而言，我们谈论的是语法、句法和语义。对于 DNA，这意味着学习控制序列的规则、核苷酸和序列的顺序以及序列的含义。就像 GPT 模型学习人类语言一样，GROVER 基本上学会了如何‘说’DNA。”该项目的研究员 Melissa Sanabria 博士解释道。

研究团队表明，GROVER 不仅可以准确预测后续的 DNA 序列，还可以用于提取具有生物学意义的上下文信息，例如识别 DNA 上的基因启动子或蛋白质结合位点。GROVER 还可以学习通常被认为是“表观遗传”的过程，即在 DNA 之上发生而不是被编码的调控过程。

“令人着迷的是，通过仅使用 DNA 序列训练 GROVER，而无需任何功能注释，我们实际上能够提取有关生物功能的信息。对我们来说，这表明功能（包括一些表观遗传信息）也编码在序列中。”Sanabria 博士说。

DNA词典

“DNA 类似于语言。它有四个字母组成序列，而这些序列具有意义。然而，与语言不同，DNA 没有明确的词语。”Poetsch 博士说。DNA 由四个字母（A、T、G 和 C）和基因组成，但没有预先定义的不同长度的序列可以组合在一起形成基因或其他有意义的序列。

为了训练 GROVER，该团队必须先创建一个 DNA 词典。他们使用了压缩算法中的一个技巧。“这一步至关重要，使我们的 DNA 语言模型有别于之前的尝试。”Poetsch 博士介绍。

“我们分析了整个基因组，寻找最常出现的字母组合。我们从两个字母开始，一遍又一遍地检查 DNA，直到找到最常见的多字母组合。通过这种方式，在大约 600 个循环中，我们将 DNA 分解成‘单词’，让 GROVER 在预测下一个序列时表现最佳。”Sanabria 博士解释道。

人工智能在基因组学中的前景

GROVER 有望解开遗传密码的不同层面。DNA 蕴含着人类的本质、疾病易感性以及对治疗的反应等关键信息。

“我们相信，通过语言模型了解 DNA 规则将有助于我们揭示 DNA 中隐藏的生物学含义，推动基因组学和个性化医疗的发展。”Poetsch 博士说。

来源：德国德累斯顿工业大学

免责声明：康嘉年華致力于健康常识分享，内容根据公开资料编辑，版权归原作者；如有侵权请在线留言删除。文章旨在介绍健康科学进展，不能作为治疗方案；如需精准健康指导，请至正规医院诊疗。

DC生肖网

破解生命密码：新型人工智能模型学习DNA的隐藏语言

全球首例基因编辑婴儿, 出生地竟在中国! 预示人类未来还是灾难?

拉拉康康