塞拉菲姆·巴特佐格鲁(Serafim Batzoglou)觉得,许锦波应该共享2024年的诺贝尔化学奖。
他转发了诺贝尔化学奖的贴文并评价说,“并不是要否定哈萨比斯、朱默帕和贝克的贡献,但还有一个人本应得到诺贝尔奖的认可,那个人就是许锦波。他第一个开发出(精准预测蛋白结构)的深度学习算法,这一算法后来被复现和增强到最初版本的AlphaFold中。他本应与哈萨比斯一起获得诺奖。”
推文截图
巴特佐格鲁是计算基因组学专家,国际计算生物学会会士,曾任斯坦福大学计算机教授。
同样认可许锦波贡献的另一个行内人,是全球蛋白质结构预测比赛(CASP)的创办者、马里兰大学教授约翰·莫尔特(John Moult)。莫尔特说,“DeepMind这项工作(AlphaFold)背后的概念和方法,并非凭空而来,关键技术是深度学习方法的应用。毫无疑问,DeepMind直接建立在许锦波的工作之上。”
CASP号称蛋白质结构预测的“奥林匹克赛”。后来获得诺奖的AlphaFold,就是在2018年的第十三届CASP比赛上初露头角。再往前推一届,在第十二届CASP比赛里脱颖而出的,正是许锦波的RaptorX-Contact算法。事实上,第十三届里排名靠前的团队,都用了类似许锦波的算法。
对许锦波来说,诺奖颁给AI预测蛋白质结构,只是一个开始。他现在专注的,是正在爆发的新领域——AI设计和优化蛋白质。
什么是蛋白质结构预测?
许锦波觉得,自己是个单线程的人。
电脑的CPU可以同时执行很多任务,但许锦波在一个时间段,只想一个问题。虽然是急性子,但面对难题时,他反而能沉下心来,花很多时间,翻来覆去地琢磨,把问题想深、想透——这又有点像他研究的AI,很多层神经网络联合起来,去捕捉数据里浮现出的复杂模式,最后出色地完成任务。
高中时,许锦波是全国高中数学联赛的江西赛区第一名。大学时,他去了中国科学技术大学的计算机系。博士阶段,他出国深造,求教于算法和现代信息论的顶级专家李明教授门下。
那是2001年,人类基因组计划正如火如荼。李明教授也正在思考与之相关的两个大问题:第一,当时测序技术还不够好,没法把一整个染色体直接从头测到尾,只能切成小碎片来测,计算机怎么才能快速把一大堆小片段正确拼成完整的基因组?第二,当时的计算机速度也比较慢,用常规方法来分析基因组,可能要花上好几年时间。怎么才能快速对比两个巨大的基因组,找出里面相似的同源基因,以及不同的变异之处?
当时的研究者、资金、注意力,都集中在DNA和基因组上。不过,许锦波和李明教授讨论后,却选了一个很难的博士课题——蛋白质的结构预测。
蛋白质结构预测,一个60年难题
选这个课题,有两个原因:第一,它很重要,研究界渴望知道这个问题的答案,且短时间内不可能被其他科研组彻底解决,非常适合作为博士课题。第二,它很困难,这是个被清晰定义的问题——已知蛋白质的序列,也就是氨基酸在一维上的排列顺序,要预测出整个蛋白质里面每个原子的三维坐标。这个问题横亘六十年,进展始终不大,许锦波好奇,自己能不能把这个问题的边界,向前推进一点点。
许锦波演讲《AI预测蛋白质结构,但这只是一个开始》丨我是科学家
蛋白质是什么?它是细胞中最丰富的生物大分子。生物学的中心法则是,遗传信息从DNA流向RNA,又从RNA流向蛋白质。
假如把一个生物体想象成一家工厂,那么DNA就是最原始的设计蓝图;RNA是根据设计蓝图复写而来的很多本操作手册,每本手册里包含了制造某个特定产品的具体步骤;而蛋白质则是一个个最终的产品,是工厂的梁柱、门窗以及千形万状的结构,是工厂里自动执行各种功能的“分子机器”。
有些蛋白质是结构性的,有些蛋白质是功能性的。结构性的蛋白质组成生物的身体——头发和指甲里的角蛋白,皮肤里的胶原蛋白,肌肉纤维里的肌球蛋白,血管里的弹性蛋白。功能性的蛋白质推动生物体内的机能与反应——帮助消化吸收的淀粉酶、脂肪酶,控制血糖的胰岛素,运输氧气的血红蛋白,存储铁的铁蛋白,传递信号的神经递质……
一些蛋白质的大小对比 。蛋白质分子的直径经常也就几纳米或者几十纳米,胰岛素只有51个氨基酸;助消化的胰蛋白酶有281个氨基酸;运氧气的血红蛋白有574个氨基酸;再大一点的有免疫系统用来对抗细菌病毒的抗体蛋白(1316个氨基酸),以及线粒体里提供能量的ATP合成酶(1125个氨基酸)。
蛋白质是由氨基酸构成的。想象一下,你有20种不同形状和颜色的柔性积木,每种积木可以无限量供应,那就是生物合成蛋白质所普遍使用的20种氨基酸。你能用这些积木搭出的不同形状,就相当于蛋白质的不同结构。
什么是蛋白质结构预测?简单点说,就是已经知道蛋白质用了哪些“氨基酸积木”,知道这些积木谁和谁接在了一起,这些积木在相连后依然可以进行一定的旋转和移动,那就是蛋白质里氨基酸残基的旋转自由度,要猜出最后拼搭出的形状。
所有可能的形状组合,是一个超出日常经验、以至于难以想象的天文数字。
举个例子,假如只是一个用了100块积木的模型,每个积木和其他积木相连时只有2种不同的拼法,那么所有可能的形状组合,就是2的100次方,也就是1.27×1030种。
这个数字有多大呢?假设有台超级计算机,每秒能算1亿种不同的形状。它把这2100种形状算一遍,需要4 ×1014年——宇宙诞生至今也就138亿年,这个时间足够宇宙反复诞生29128次。
问题很难,但单线程的许锦波依然决定走上蛋白质结构预测这条单行道。这条路,他一走就是24年。
RaptorX算法诞生,启发AlphaFold
最开始,许锦波想的是改进当时的主流方法——“能量优化”法。
一颗球放在山顶上,轻轻一碰,就会滚到山脚,这就是自然地从“能量高的状态”转变为“能量低的状态”。
对于蛋白质分子来说,科学家也猜测里面的所有原子会自然地找到能量最低的稳定状态,那就是蛋白质最后折叠出的结构。
“能量优化”法就是这个原理。但“能量优化”的问题在于,预测比较小的分子时还好,但分子越大越复杂,得出的结果就会越差。
蛋白质平均会用到几百个氨基酸,由几千几万个原子组成,结构的可能性迅速增长到天文数字,找出“最优能量”几乎是个不可能的任务。事实也证明,与结构生物学家做实验解出的结构相比,“能量优化法”预测出的结构始终误差较大。
机器学习与深度学习登场
从2006年开始,许锦波逐步转向新兴的机器学习和深度学习方法。
如果说“能量优化”还大量依赖于人去手把手指导计算机,那么机器学习和深度学习就开始鼓励计算机“自学”了,当然,这种“自学”仍然需要人类的算法和策略指导。计算机分析已知的蛋白质序列和结构,自己去发现其中蕴藏的规律,然后据此再去预测一个未知蛋白的结构。
相比“能量优化”,“机器学习”和“深度学习”无疑是一种颠覆。就像人的大脑可以在极端复杂的环境里磨炼自己的直觉和反应,计算机也可以通过训练来不断改进自己的能力,可以处理混乱的、残缺的、不完美的信息。
唯一的问题是,结果还是不够好,预测出的结构,误差还是比较大。和老方法相比,提升几乎可以忽略不计。
能试的路似乎都已经走到了尽头。很多人开始离开蛋白质结构预测的这个领域,研究基金越来越少,参加CASP比赛的队伍也越来越少。许锦波回忆说,“在2006年到2016年这10年间,大家都觉得这个问题没办法做出来,很多人都离开这个领域去做其他的问题了。
对许锦波来说,突破是在2016年到来的。
决定性突破:利用蛋白质的全局信息
那个思考良久的问题,在大脑的层层神经回路里来回碰撞、循环、激发,有一天,一个灵感忽然浮现。
“关键就是一点,要尽可能地用上蛋白质的全局信息”,许锦波说,“之前的深度学习还是在使用局部信息去预测。”
拿一个由300个氨基酸组成的蛋白质来说,以前的预测方法每次只关注某几个位置的氨基酸信息,比如第一个氨基酸、第十个氨基酸 或者第一百个氨基酸;也可能只关注某一个局部区域,比如第20个到第30个氨基酸……总之,关注的都是一些局部信息。
许锦波的想法是,一定要让AI把从第1到第300个氨基酸的全局信息全用上,当然,难点就在怎么收集这些全局信息,“我尽可能用比较深的神经网络去做,也是因为多层的网络更能抓取到蛋白质的全局信息,它是一个合适的工具。”
就像在玩一个难度极高的拼图游戏,许锦波耐心地训练AI寻找线索:要看有哪些小碎片特别契合、经常一起出现(氨基酸的共进化);要对比分析,看哪些小碎片是从其他拼图里继承来的(保守序列);要预测哪几块小碎片会互相接触(氨基酸的接触预测),任意两块碎片之间的距离是多长(氨基酸的相互作用强度);最后把所有信息汇总成数学上的矩阵,又把矩阵转换为图像,然后让AI用识别图像的方式去识别“蛋白质全局信息图”。
许锦波拿这个方法去预测了一个200多个氨基酸的膜蛋白结构,发现误差只有2.29个埃,大概0.2纳米,两个原子的宽度。
为什么选择膜蛋白?许锦波说,“目前的实验技术去解析膜蛋白结构是很困难的,所以数据库里就没有太多的膜蛋白结构。以前的算法也就没有足够的膜蛋白数据去用于训练,所以在预测膜蛋白结构时往往会失效。但我的RaptorX算法在不需要用膜蛋白数据去训练的情况下,还可以把膜蛋白的结构预测得相当好。这就意味着RaptorX算法不是依靠简单地记住训练数据,不是单纯依赖相似的序列而推导出相似的结构。而是它抓取全局信息后真正学到了一些底层的规律,于是有了比较好的预测能力。”
那一刻,许锦波知道,这方法成了。