所有的生命分子皆可预测,这意味着生物医学领域从此开了真上帝视角。大家好,我是差评君。我一直认为谷歌的人工智能最正统,因为谷歌的蛋白质结构预测模型 AlphaFold 事关生命医学对人类的意义重大。前两天谷歌 DeepMind 公司公布最新一代 AlphaFold 3 的成果,生物圈媒体网友都集体高潮,今天差评君也来给大家解读一下。
2.蛋白质预测的传统方法与 AlphaFold 的崛起生物体内最多的物质是什么?答案是水,但是蛋白质才是生命活动的主要承担者。要搞清楚生物分子的底层逻辑,就必须知道每个蛋白质具体长啥样。在 AlphaFold 之前,预测蛋白质结构主要有三种方法:拍 X 光、做核磁共振和冷冻电镜。不过核磁共振只能测很小的蛋白质分子,X 光遇上没法溶解结晶的蛋白质就没辙。冷冻电镜就更贵了,光设备就几千万,很少有实验室用得起。所以人们就琢磨这种需要经验总结的工作能不能靠 AI 解决呢。
还真行。2018 年,谷歌搞出了第一代 AlphaFold,虽然蛋白质由氨基酸构成,AI 就深度学习已知蛋白质结构中每一对氨基酸的距离、链接角度,再对未知蛋白质做出自己的预测效果,技惊四座,拿到了当年蛋白质结构预测大赛的冠军,力压一众实验室老师傅。
3.AlphaFold 的进化:从 1.0 到 3.0 的飞跃虽然 AlphaFold 初代厉害,但复杂情况仍然预测不了。当遇到长数据时,它就没办法提取离得远的元素之间的关系。2020 年发布的 AlphaFold 2.0 用 Transformer 模型的注意力机制解决了长距离氨基酸的问题,准确度达到惊人的 92.4 分,它能生成的范围已经覆盖了人类已知蛋白质的 98%,还完全开源。
这次 3.0 版本升级了,工具用上了 diffusion,这和 AI 画的原理非常相似,从一团原子云通过概率扩散来预测出最终坐标。但是在 diffusion 加持下的 AlphaFold 3 也会预测错误,比如手性分子。在容易出错的地方,demand 用了一个叫做交叉蒸馏的操作,减少预测失误,生成质量相当。精度也是遥遥领先的,原子级在蛋白质与核酸配体的模拟上全面优于其他产品。
4.AlphaFold 的挑战与未来展望使用 AlphaFold 3 生成生物大分子模型的门槛并不高,只需在网站输入参数,几分钟之后就能产生极高清晰度和准确度的模型,甚至细胞系统内部的生化过程现象都能在极短时间内被整明白。整个传统生物医疗的科研方式似乎都要被改变了。
不过,乐观是好的,科学这玩意还得中肯和严谨。在各路媒体和网友都在炸裂颠覆改变世界的时候,圈内的不少大佬也发表了些评价。比如闫宁教授的团队发现,3.0 版本在一个糖蛋白预测中就翻车了,表现甚至不如前代版本。也有人质疑,DeepMind 老板哈萨比斯 21 年就创立医药公司,号称要利用人工智能重新定义药物发现,但到今天还没有推出任何药物。总之,AlphaFold 的三代产品确实喜人,但在生命科学的漫漫实践长路上,人类依旧有着不少难题需要去突破。在人类与时间的赛跑中,终将有胜利的一天。