原标题:生物学难题迎AI产品破局!Science、Nature同日发文,预测蛋白结构算法开源
【导读】
「AI预测蛋白质折叠,为何让学界如此狂热?」
AI又让学术圈沸腾了,《Science》和《Nature》甚至齐齐发文。
去年谷歌旗下AI公司Deepmind开发出一项名为Alphafold2的AI算法,在生物界引起了极大的轰动,它能准确地预测蛋白质的结构,以至于许多人宣布这个长达数十年的问题“已被解决”。
当时此消息一出,立刻登上了Nature杂志封面,标题直接评论为:“它将改变一切!”李飞飞、马斯克等众多大佬纷纷点赞、转发。这项技术甚至被评为2021年十大科学突破之一。
而今天AlphaFold2终于开源:DeepMind 的 CEO 哈萨比斯等人在 《Nature 》上也发表论文,公布了 AlphaFold2 的源代码,并且详细描述了它的设计框架和训练方法。
而更惊喜的是,这项技术不再是Deepmind一家独大,同日,《Science》发表了来自华盛顿大学 David Baker 团队的蛋白质结构预测论文,开发了名为 RoseTTAFold 的蛋白质结构预测系统。
而且该团队开发出的算法更快更轻便,只需要一个英伟达RTX2080 GPU,10分钟就能算出蛋白质结构。
AI预测蛋白质折叠,为何让学界如此狂热?
蛋白质的精确形状决定了它能实现的生化功能,50年来,科学家们一直在努力解决生物学最大的挑战之一: 预测氨基酸在成为真正的蛋白质时会折叠成什么样。
这个问题于1972年被克里斯蒂安·安芬森提出,它的验证曾经困扰科学家50年:
给定一个氨基酸序列,理论上就能预测出蛋白质的3D结构。
传统的方法是实用X光和低温电子显微镜,这些方法费时费力,而且在已知的2亿种蛋白质中,只有17万种有详细的分子图谱。今年,由英国 DeepMind 研究人员开发的人工智能AlphaFold实现了这个目标,可以精确地预测出大多数蛋白质的结构。
这个新项目可以帮助研究人员发现疾病的发病机制,研发新药,甚至改造出更耐旱的植物。
在过去的几十年中,人类已经能够利用冷冻电子显微镜、核磁共振或 X 射线晶体学等实验技术确定蛋白质的基本结构,但这些技术基于大量试错,往往需要花费数年时间,成本也非常高。
而此前的AI算法,在CASP14(蛋白质结构预测比赛)中,准确性也只达到40分左右(满分100)。
在去年的比赛中,AlphaFold2 预测的大部分结构达到了空前的准确度,不仅与实验方法得出的结果不相上下,还远超解析新蛋白质结构的其他方法。
华盛顿大学团队角力DeepMind,科研界的「卷」让世界进步
但当时这个消息并未让所有学界内的人都感到兴奋。
华盛顿大学的David Baker就是其中之一。
David Baker
David Baker 表示,2020年 DeepMind 在CASP14大会上的表现,给业界带来极大震撼,AlphaFold系统对蛋白结构的预测如此精准,让学术界产生了许多悲观情绪,他自己甚至一度觉得要失业了。
但他很快调整心态,决定挑战AlphaFold系统。
Baker带领的团队开发出的RoseTTAFold,初衷就是因为DeepMind没有开源AlphaFold的代码,最后他们联合哈佛大学、剑桥大学等机构研发出了这个基于深度学习的RoseTTAFold,准确率上媲美AlphaFold2,而且所需算力仅为其零头,团队也已经在github上开源了代码,这让很多条件落后的单位也有机会使用这些AI工具。
RoseTTAFold 是一个三轨道神经网络,输入兼顾了蛋白质序列、氨基酸如何相互作用以及蛋白质可能的三维结构,然后采用类似RNN的循环结构,让三个维度的信息可以来回交流,所以预测会天然考虑物理和化学作用。
从Github目前的Star数量来看,DeepMind的AlphaFold更胜一筹,有两千多个,RoseTTAFold只有三百多。
但是从可行性上来讲,RoseTTAFold要好一些,毕竟比起有谷歌支持的Deepmind,动辄上T的内存需求和超贵的显卡,不是哪个实验室都能拥有。
那看看Deepmind这次开源发表的文章有无更好看的点。
Deepmind的首席执行官哈赛比斯等人在 Nature 的文章名为《Highly accurate protein structure prediction with AlphaFold》,首次透露了AlphaFold的完整方法论,包括设计原理和细节,并开源了代码,它可以在原子水平上预测蛋白质结构。
AlphaFold 所使用的深度学习算法,利用的是多序列对齐,还结合了蛋白质结构的物理和生物学知识来提升效果。
AlphaFlod 首次参加 CASP 就准确地预测出了 43种蛋白质中的25 种,它专注于从头开始建模目标蛋白质的形状,且并不使用先前已经解析的蛋白质作为模板,也就是说,它并不会参考之前已知的蛋白结构。
AlphaFold 网络直接预测给定蛋白质的所有原子的三维坐标,使用基本氨基酸序列和同源序列的对齐序列作为输入。
同为一作的John Jumper开篇讲了一下核心观点,将物理直觉融入到了网络结构中,端对端直接生成结构取代了残基的距离矩阵,从图的角度出发预测蛋白质的物理和几何结构。
有意思的是,Nature 特意在论文标题前开头备注:“这是一份未经编辑的手稿,但是已允许出版。Nature Research 乐意为作者和读者提供这份手稿的早期版本。”
难道是已经感受到了被后辈超越的危机?
今天两篇论文的相继登出,颇有几分学界向企业界挑战、捍卫自身领域科研未来的戏剧化味道。
但不管谁最后胜出,都将对未来的药物设计、疾病治疗带来革命性的变化。
论文链接:
https://www.nature.com/articles/s41586-021-03819-2
https://science.sciencemag.org/content/early/2021/07/14/science.abj8754
责任编辑: