清华学者专注于生命数字化,以AI+机理双核驱动构建代谢模型

深科技利大千 2024-07-31 17:00:32

生命科学领域,正在经历一场由数字技术推动的大变革。其中,数字孪生模型(digital twin)是实体对象的精确虚拟模型,属于最新一代技术变革的先锋。

数字孪生生命即对生命精准建模,能够显著提升人们对复杂生物系统的理解和干预能力,有潜力应用于细胞工厂设计、工业发酵条件优化、药物开发以及个性化诊疗等。

清华大学深圳国际研究生院的助理教授李斐然长期致力于生命数字化研究,她通过整合 AI 和系统生物学等方法开发前沿性的数字生命框架,从微生物建模到更为复杂的人类细胞建模,已经在理解细胞代谢、指导细胞工厂设计等合成生物学领域多个下游任务以及医疗健康领域取得了多项研究成果。

凭借在生命数字化的研究以及开发了首个深度学习预测酶参数的方法,李斐然入选 2023 年度《麻省理工科技评论》中国区“35 岁以下科技创新 35 人”。

图 | 李斐然博士

李斐然博士毕业于瑞典查尔姆斯理工大学生物及生物工程系,师从中国工程院外籍院士 Jens Nielsen 教授,并在该实验室完成博士后研究。目前的研究重点集中在数字生命模型的研究以及转化应用上,包括开发及分析微生物、哺乳动物细胞、器官及人体的代谢模型或调控模型,探索细胞代谢暗物质并促进新途径及新酶挖掘,以及开发深度学习模型助力理解蛋白序列-功能-参数关系。

专注于数字细胞,以 AI+机理双核驱动构建代谢模型

小时候,李斐然热衷于阅读科幻小说,比方说《三体》、《镜子》和《沙丘》等等,这在她心底埋下了探索未来科技无限可能的种子。“从那时起,我对虚拟世界产生了浓厚的兴趣,憧憬着利用新技术将科幻小说中的描述变为现实。这些经历培养了我的好奇心和探索精神,也让我在后续的科学研究中具备了更加开放的思维和创新的能力。”李斐然回忆道。

本科阶段,李斐然的研究方向是生物化工和合成生物学,主要通过改造微生物菌株提高产量。然而,在改造菌株的过程中,她发现基因过表达或敲除等方法无法按预期那样带来理想的改造效果。“这让我萌生了一个想法,是否能够通过构建数学模型预测菌株体内的变化、改造后的效果,从而提高改造成功率,更理性地指导微生物改造。”

此后,李斐然开始专注于数字细胞(数字生命)项目,并系统学习建模和分析微生物代谢,建模目标也从微生物扩展到人类细胞。2017 年,她加入瑞典查尔姆斯理工大学 Jens Nielsen 院士团队,致力于提升数字生命模型的模拟精度以及扩大模型模拟范围,从偏解释性的模型转向预测性模型。

(来源:EPFL)

此前,微生物代谢建模主要以机理模型为主,这是一种根据对象、生产过程的内部机制或者物质流的传递机理建立起来的精确数学模型。此类模型通常需要对生物系统有深入的理解才能清晰地描述和预测其行为,如果对不完全了解的生物过程建模,构建准确的机理模型就会受限,预测效果也会不尽如人意。

“彼时,正值人工智能大放异彩。AI 和深度学习模型在预测性能上具有优势,AI 的可预测性能非常强,不过解释性欠佳,而机理模型的可解释性非常强。因此,我们决定尝试将这两种模型的优势结合起来,并提出了机理模型 +人工智能双核驱动的模型框架想法。这一框架结合了机理模型的可解释性和深度学习模型的可预测性,我们可以从已知生命过程到未知生命过程全面建模,模型可同时具有可预测性和可解释性。”

基于上述双核驱动理念,针对数字生命模型构建中酶参数实验测量缓慢的瓶颈,李斐然开发了首个深度学习预测酶活性参数的方法 -DLKcat。该模型只需输入酶的底物信息和序列即可预测其活性,可用于任意物种酶活的预测,加速推进理解蛋白序列-结构-功能关系,有潜力成为酶工程改造和设计领域一个非常实用的通用预测工具。既可以更精确理解和预测复杂的生物系统行为,也可以为设计和优化高效的细胞工厂提供了更多可能性。

酶元件是合成生物学领域里面最关键的元件之一。据李斐然透露,这项研究发表之后引发了酶参数预测的热潮,并入选了 Nature Catalysis 中“Machine Learning in Catalysis”的专栏十二篇焦点论文。

(来源:Nature Catalysis)

后续,基于该深度学习方法,李斐然构建了超大规模的开源酶数据库 GotEnzymes,该数据库包含了超过两千万个酶-底物对的酶活参数。公开资料显示,该数据库是目前主流 BRENDA 和 SabioRK 数据库所收录的酶活实验测量数据的 1500 多倍。

已构建多个模型,正在推进转化工作

加入清华大学深圳国际研究生院之后,李斐然建立独立实验室继续构建数字孪生模型,并将这些模型应用于合成生物学和医药健康领域。研究团队针对这两类场景精确建模,主要开发围绕真核生物构建两类模型,一类是真核微生物模型,另一类是人体模型。

针对真核微生物建模,计划在细胞工厂设计等应用中实现全链条的设计过程,显著提高设计过程的效率,同时降低时间和成本;针对人体不同器官和组织建模,旨在模拟物质和能量在不同器官之间的交换过程,从而为个性化健康管理和治疗提出相应建议。

据李斐然介绍,目前的工作主要是基于代谢模型,这是研究团队的起点,然后从代谢网络扩展到蛋白翻译、转录、修饰以及蛋白相关功能等调控网络模型。最新发表的研究包括酿酒酵母基因组尺度代谢模型、酿酒酵母蛋白分泌模型、人类基因组尺度代谢模型。其中,已经构建了超 300 多种酵母菌属的模型,超 1000 多个工业应用酿酒酵母模型,以及针对不同人群近 20 多个器官构建人体模型。

2022 年,李斐然提出了称之为 pcSecYeast 复杂蛋白质分泌模型,该模型涵盖的反应数从 4000 个增长至 37000 个,包含了蛋白质如何在细胞中合成和修饰为成熟形式的详细过程。该模型成功预测了蛋白细胞工厂的系统改造靶点,为理性改造靶点和设计细胞工厂提供了新方法,可用于生产工业或药物蛋白质。

(来源:Nature Communications)

另一方面,该团队还在通过机理 +AI 双驱动构建综合性的数字孪生人类模型,已经针对 5 种人群建立了数字孪生人类代谢模型,涵盖了从婴儿到老年人的不同阶段,包括婴幼儿、成年男性、成年女性和老年人群。“我们的目标是揭示不同人群在药物组合代谢和食物代谢方面的差异。未来,我们希望不仅仅限于人群层面,而是针对每个个体进行个性化建模。例如,如果每个人都可以进行全外显子测序或基因组测序,为每个人构建个性化的数字孪生模型,服务于其健康管理和个性化治疗需求。”

据李斐然透露,已经在同步推进这些模型的转化应用工作,重点是加速酶参数预测模型服务于酶工业领域,提高酶改造和从头设计的准确性。另一方面,未来计划与测序公司或健康管理公司等合作,建立全机体数字人类模型,并结合基因组测序为个体建立数字模型,将这些数字孪生人类模型应用于健康管理、个性化食谱推荐以及生活方式建议等应用中。

“基础研究就像是培育孩子一样,我们希望看到研究工作能够真正应用起来,推动产业界变革,甚至改变现有的模式。深圳作为一个飞速发展的地方,提供了丰富的机遇,我们希望能够看到实验室的前沿技术被更多产业界接受和应用。”

“推动模型实现质的飞跃”

基因组代谢模型是一类系统描述细胞代谢的数学模型,能够模拟基因组信息和代谢表型之间的关系,这为代谢相关的实验数据提供了解释框架,也让全细胞代谢模拟实验变得更简单。

自 1999 年世界上第一个基因组代谢网络模型流感嗜血杆菌模型被构建以来,目前全球已经构建了数以千计物种的基因组代谢网络模型。据统计,截至 2019 年已有超过 6000 个基因组代谢网络模型被构建,且这些模型已经被广泛应用于生物制造和生命健康等领域,包括系统生物学、代谢工程、药物开发、酶功能预测等等。

(来源:Applied Microbiology and BiotechnologyAims and scopeSubmit manuscript)

“从整个基因组规模代谢网络模型的发展来看,模型已经在数量上实现了飞跃。早期阶段,由于缺乏相关知识,构建一个模型需要花费很长的时间。而随着大数据、AI 和自动化模型构建工具的出现,构建模型日益变得更加容易。”李斐然说,她在硕士 3 年构建了一个原核生物的模型,而到了博士阶段得益于技术的进步,共计构建了 1700 个模型。

李斐然继续补充道,过去近 30 年来,生命模型在数量上取得了飞跃,且已经展示了一些非常突出的应用。然而,我们认为还远远不够,整个领域其实还处于比较早期的阶段。迄今为止,建模仍然依赖着类似于 20 多年前的方法,领域内还没有出现比较革命性的突破,相对于复杂的生物系统,目前的模型质量能够模拟的现象和进行的预测也相对有限。因此,我们现在需要从量变到质变,朝着质的飞跃迈进,整合人工智能和数字孪生等先进技术推动模型进步,朝着更精准和更具预测性的方向发展。

参考链接:

https://www.nature.com/articles/s41929-022-00798-z

https://www.nature.com/articles/s41467-022-30689-7

https://link.springer.com/article/10.1007/s00253-022-12066-y

0 阅读:2

深科技利大千

简介:感谢大家的关注