人工智能

下棋下哭柯洁的DeepMind 这次要让生物界地震?

字号+作者: 来源:差评 2024-05-11 10:22 评论(创建话题) 收藏成功收藏本文

最近又被AI新闻给刷屏了,当年开发出AlphaGo,下棋下哭柯洁的GoogleDeepMind公司,在Nature上公布了最他们新一代AlphaFold3模型。AlphaFold,这个听起来有点像'...

最近又被AI新闻给刷屏了,当年开发出AlphaGo,下棋下哭柯洁的GoogleDeepMind公司,在Nature上公布了最他们新一代AlphaFold3模型。AlphaFold,这个听起来有点像折叠屏手机型号的名字,是他家专门预测蛋白质结构的新AI。DzZ品论天涯网

生物体内几乎所有的分子结构,它都可以预测。这意味着生物医学研究从此开了真·上帝视角,任何生物分子作用机理都将从黑盒中打开,变成透视模式。DzZ品论天涯网

不少媒体和网友开始欢呼,21世纪,这下真要成生物的世纪了……DzZ品论天涯网


DzZ品论天涯网

要看懂这次新发布的AlphaFold3有多牛,咱们就得先知道,DeepMind和它的AlphaFold,曾给了分子生物圈多大的震撼……DzZ品论天涯网

我们在九年义务教育里都学过,生物体内最多的物质就是蛋白质,而要搞清楚生物分子的底层原理,就必须知道每个蛋白质具体长啥样。DzZ品论天涯网

这么说吧,在AlphaFold之前,大伙们预测蛋白质结构主要两种办法,DzZ品论天涯网

一是用X光照蛋白质晶体,也就是先拍片子再分析片子,再来搞懂它长啥样。二是核磁共振(NMR)光谱,拍出大体形状轮廓,再推测它的结构。DzZ品论天涯网

这些传统办法不仅慢,适用范围小,需要不断试错,还费钱,每拍一次片子就花好几万美金一辆小米su7。DzZ品论天涯网

这也是为啥蛋白质研究方向生物学家,费钱且需要大量经验……只有那些经验的老师傅,蛋白质仙人,才能更快猜到蛋白质的准确形状,少拍点片子。DzZ品论天涯网


DzZ品论天涯网

所以人们就琢磨,这种需要经验总结的工作能不能靠AI解决呢?DeepMind就来干这事了,为了克服传统拍片子的问题,第一代AlphaFold选择技术路线的时候就摊牌了:DzZ品论天涯网

不拍片子!DzZ品论天涯网

蛋白质既然由氨基酸构成,初代AlphaFold用的方法就是,利用来自各处公开的已知蛋白质结构,把这些蛋白质中每一对氨基酸的距离,链接角度,汇总起来做成一张图,AI用神经网络消化完他们,再让AI做出自己的预测。DzZ品论天涯网


DzZ品论天涯网

而2018年第一代AlphaFold一经发布,就技惊四座,力压一众实验室老师傅,获得第13届蛋白质结构预测大赛(CASP)冠军。DzZ品论天涯网

AI,很神奇吧。DzZ品论天涯网

不过,初代AlphaFold有个问题,它更依赖局部数据的特征来训练,它不太能提取到较远元素之间的关系。就好像一个只会写短文,但学不会写长篇小说的作家。DzZ品论天涯网

问题是,很多蛋白质分子有长距离的依赖性,这让初代AlphaFold的实力就有点捉襟见肘了。DzZ品论天涯网

好在2020年发布的AlphaFold2.0,用上后来在ChatGPT上大火的Transformer模型。DzZ品论天涯网


DzZ品论天涯网

Transformer模型的注意力机制,则完美解决了长距离氨基酸的问题,进步有多大呢?DzZ品论天涯网

2018年蛋白质结构预测大赛里1.0版本准确度得分不到60分,但是2020年大赛里2.0版本拿到了惊人的92.4分,它能生成的范围已经涵盖了人类已知蛋白质的98%,更重要的是它完全开源DzZ品论天涯网


DzZ品论天涯网

可以说,2.0版本已经基本解决了单链蛋白质的预测问题,到2021年,基于2.0改版的AlphaFold-Multimer发布,也支持上了多链,准确度上也取得了突破,蛋白质之间作用的预测准确率超过70%。DzZ品论天涯网

所以现在很多公司也用上了它们,甚至助力了国外一些新冠疫苗研发。DzZ品论天涯网


DzZ品论天涯网

但在DeepMind看来,蛋白质结构预测上的胜利,还远远没发挥完AI的潜力,因为生物体内的复杂分子结构不止有蛋白质,还有核酸,小分子配体等等,DzZ品论天涯网

这就好比你花了十年时间学刻钥匙开锁技术,结果一出师,发现大家用的都是指纹锁密码锁,用传统钥匙的人太少了!DzZ品论天涯网

所以这次AlphaFold3,他们更新了一个更牛逼的全方位模型,不仅能预测蛋白质DNARNA等各种小分子,还能揭示他们之间的互相作用。DzZ品论天涯网


DzZ品论天涯网

那这是怎么干的呢?答案是,他们用了Diffusion。DzZ品论天涯网

对,就是大名鼎鼎的扩散模型,在AI绘画大火的时候,想必大家就听说过。它的原理就是把原图像不断打码,再让AI学会预测这些马赛克的生成过程,然后反过来实现从马赛克到图像的生成。DzZ品论天涯网

不过,就像AI画画生成不好手指,Sora椅子视频会穿模一样,Diffusion加持下的AlphaFold3也会预测错误,特别是在一些长得相似难以区分的结构上,比如各位高中有机化学里学过的手性分子。DzZ品论天涯网


DzZ品论天涯网

所以在这些容易出错的地方,DeepMind用了一个叫做交叉蒸馏的操作,说白了就是让有Transform模型的2代版本先预测,再把预测数据添加到AlphaFold3的训练中,也就是相当于让2代扮演教师,领着3代去做,这样就能减少预测失误。DzZ品论天涯网

生成的效果有多好?直接看官方图吧DzZ品论天涯网

AlphaFold3对7BBV-酶(存在于一种土壤真菌体内)的预测,其中酶蛋白(蓝色)、离子(黄色球体)和单糖(黄色)与真实结构(灰色)几乎重合DzZ品论天涯网


DzZ品论天涯网

AlphaFold3对感冒病毒刺突蛋白(蓝色)与抗体(绿松石色)和单糖(黄色)相互作用时的结构预测,与真实结构准确匹配(灰色的)DzZ品论天涯网


DzZ品论天涯网

AlphaFold3对蛋白复合物的预测,其中蛋白质(蓝色)与DNA(粉色)结合,预测模型与实验测定的真实分子结构(灰色)近乎完美匹配DzZ品论天涯网


DzZ品论天涯网

除了生成质量相当哇塞,精度也是遥遥领先的原子级。在蛋白质与核酸配体的模拟上全面优于其他产品,抗原抗体的模拟也同样优秀。DzZ品论天涯网

而操作AlphaFold3就更容易了。用ChatGPT,咱还得想办法提个好问题、写好提示词,而在AlphaFold3,你只需要输入一些分子列表,它就能预测出它们是如何组合在一起的。DzZ品论天涯网


DzZ品论天涯网

试想一下,原先需要花大量时间精力和资金才能观察到的现象,现在只需要在网站输入参数再单击,几分钟后就能产生极高清晰度和准确度的生物大分子模型。DzZ品论天涯网

甚至细胞系统内部的生化过程,现象,DNA如何发挥作用,药物和激素的反应如何进行,也全都能在极短时间内被整明白。DzZ品论天涯网

这些遥遥领先的数据,和大家的热情好像都在说:这次发布已经不是跨越式进步了,而是革命性的突破,整个传统生物医疗的科研方式,似乎都要被改变了。DzZ品论天涯网

不过世超觉得,乐观是好的,但是科学这玩意儿除了乐观,要的还得是中肯和严谨。DzZ品论天涯网

在各路媒体和网友都在“炸裂”“颠覆”“改变世界”的时候,圈内对的不少大佬,也发表了些对AlphaFold3的评价。DzZ品论天涯网

比如颜宁教授团队就发现,3.0版本在一个糖蛋白预测中就翻车了,表现甚至不如前代版本。DzZ品论天涯网

也有不少科学家吐槽3.0相比2.0它还不开源了,使用次数也有限制。DzZ品论天涯网


DzZ品论天涯网

甚至,还有人质疑DeepMind的老板Hassabis,他自己就创立过一家“专注人工智能的药物公司”,号称要“利用人工智能重新定义药物发现”,但从2021年到,今天他们还没有推出任何药物。DzZ品论天涯网

当然这就有点在尬黑了,毕竟药物研发过程中,蛋白质结构问题只是其中一小部分,这并不能对药物研发进度产生决定性影响……DzZ品论天涯网


DzZ品论天涯网

总之,世超觉得AlphaFold的三代产品确实喜人,但在生命科学的漫漫实践长路上,它依旧有着不少难题需要去突破。不过说到底,进步总还是好事,希望DeepMind能再多搞点,搞快点吧。DzZ品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]