《科学》:媲美AlphaFold2的蛋白质结构预测新工具问世,一台游戏计算机十分钟出结果,完全免费
大数据文摘授权转载自学术头条
撰文:吴婷婷
编审:王新凯
如今,人工智能已经渗透到人们生活的方方面面,各种深度学习算法也越来越多地应用于各个领域。尤其在生物和医学领域,人工智能技术可以说大放异彩,极大加速了有关生物、病理等科学的发展,而其中一项重要的应用,就是预测蛋白质结构。
蛋白质作为构成人体组织器官的支架和主要物质,在人体生命活动中起着重要作用。2020 年,DeepMind 在第 14 届 “蛋白质结构预测关键评估”(CASP14)大赛中展示了轰动一时的相关成果 ——AlphaFold2,当时,该技术预测蛋白质结构的准确度排名第一。
现在,西雅图华盛顿大学医学院蛋白质设计研究所的研究人员,研发出一款新的深度学习工具 RoseTTAFold,不仅拥有媲美 AlphaFold2 的蛋白质结构预测超高准确度,而且更快、所需计算机处理能力更低,更重要的是,RoseTTAFold 完全免费!
相关论文发表在最新一期的 Science 杂志上。
AlphaFold2:声名大噪的 “前浪”
蛋白质是一切生命的物质基础,由无数氨基酸链组成,它们按照特定方式折叠结合成复杂的微观形状,这些独特的结构反过来又引发了生物体内几乎所有的化学过程。因此,通过更好地了解蛋白质内部结构,科学家们可以加快开发针对癌症、COVID-19 和数千种其它健康疾病的新疗法。
图 | 蛋白质 3D 结构(来源:Nat Commun)
Science 杂志曾指出,蛋白质折叠问题是人类在 21 世纪需要解决的 125 个科学前沿问题之一。通过蛋白质结构预测破译 “第二遗传密码”,是生物学中心法则尚未揭示的奥妙之一,也是目前结构生物学面临的一项具有挑战性的重大基础性研究课题。
然而,确定蛋白质的 3D 结构一直是一个难题。在过去的几十年中,人类已经能够利用冷冻电子显微镜、核磁共振或 X 射线晶体学等实验技术确定蛋白质的基本结构,但这些技术基于大量试错,往往需要花费数年时间,成本也非常高。
近年来,随着人工智能技术的不断发展,有关预测蛋白质结构的 AI 工具也越来越成熟。其中,性能最强、准确度最高的就是去年 DeepMind 在 CASP14 蛋白质结构预测评估会议上展示的 AlphaFold2。在去年的比赛中,AlphaFold2 预测的大部分结构达到了空前的准确度,不仅与实验方法得出的结果不相上下,还远超解析新蛋白质结构的其他方法。
图 | AlphaFold2 预测的蛋白结构与实验结果几乎一致。(来源:DeepMind)
AlphaFold2 的高性能令世人瞩目,然而人们也开始思考一个问题:除了 DeepMind 这种在世界领先的深度学习公司以外,其他机构或科研团队开发的系统中是否也可以实现这种准确性呢?
RoseTTAFold:公开免费的 “后浪”
现在,肯定的答案浮出水面。
在此次的新研究中,华盛顿大学医学院生物化学系教授、蛋白质设计研究所所长 David Baker 领导一支计算生物学家团队,成功开发一款名为 RoseTTAFold 的工具,基于深度学习,能够根据有限的信息快速准确地预测出目标蛋白质的结构,达到与 AlphaFold2 不相上下的准确度。
图 | David Baker(来源:UW)
不仅如此,RoseTTAFold 所需的计算耗能与计算时间均比 AlphaFold2 还要低:仅用一台游戏计算机,在短短十分钟内就可以可靠地计算出蛋白质结构。更值得注意的是,RoseTTAFold 的代码和服务器完全免费提供给科学界!自 7 月以来,相关程序已被 140 多个独立科研团队从 GitHub 免费下载,来自世界各地的科学家现在正在使用 RoseTTAFold 来构建蛋白质模型,以加速相关领域的研究。
因此可以说,RoseTTAFold 不仅仅是 “免费版” 的 AlphaFold2,更是该技术领域推翻 “前浪” 的那一股 “后浪”。
整个研究学界都将受益
实际上,RoseTTAFold 是一个 “三轨” 神经网络("three-track" neural network),这意味着它同时考虑一维蛋白质中的氨基酸序列、二维蛋白质的氨基酸如何相互作用以及蛋白质可能的三维结构。在这种架构中,一维、二维和三维信息来回流动,从而使神经网络能够共同推理出蛋白质的化学部分与其折叠结构之间的关系。
目前,该团队已经使用 RoseTTAFold 计算了数百种新的蛋白质结构,其中包括许多来自人类基因组的知之甚少的蛋白质。研究人员还生成了与人类健康直接相关的蛋白质结构,包括与非正常脂质代谢、炎症障碍和癌细胞生长相关的蛋白质结构。这些成果都表明,RoseTTAFold 可以仅用从前所需时间的很小一部分,构建出复杂生物组件的模型。
图 | 研究人员使用 RoseTTAFold 生成了数百种新的蛋白质结构,包括人类白细胞介素 12 与其受体结合的 3D 视图(来源:UW Medicine Institute for Protein Design)
当然,看似 “小小” 的一步,背后支撑的是整个研究团队的努力。作为团队主要负责人,Baker 说:“在蛋白质设计研究所这忙碌的一年中,我们设计 COVID-19 疗法和疫苗并将其投入临床试验,同时开发出用于高精度蛋白质结构预测的 RoseTTAFold 工具。我很高兴科学界已经在使用 RoseTTAFold 服务器来解决突出的生物学问题。”
可以想见的是,如此一款便捷免费、高准确度、低成本的工具必然会受到世界各地的科研人员的欢迎。团队成员之一、博士后学者 Minkyung Baek 也表示:“我们希望 RoseTTAFold 新工具在今后,继续使整个研究学界受益。”
参考资料:
https://science.sciencemag.org/content/early/2021/07/14/science.abj8754
https://science.sciencemag.org/content/373/6552/262
https://newsroom.uw.edu/news/accurate-protein-structure-prediction-now-accessible-all