碾压AlphaFold?Meta预测蛋白质元宇宙的“暗物质”
原文作者:Ewen Callaway
来自土壤、海水和人体的微生物分子是这个地球上非常神秘的蛋白质。
当伦敦的DeepMind公司在今年公布约2.2亿个蛋白质预测结构时,几乎覆盖了DNA数据库中已知生物的全部蛋白质。现在,另一个科技巨头揭示了这个蛋白质宇宙的“暗物质”。
Meta(前身为Facebook,总部位于美国加州的门洛帕克)的研究团队利用人工智能(AI)预测了约6亿个蛋白质的结构,这些蛋白质来自此前从未被表征过的细菌、病毒和其他微生物。
Meta AI蛋白质团队负责人Alexander Rives说:“这些结构是我们最不了解的结构。它们是非常神秘的蛋白质。我相信它们有潜力为生物学研究带来巨大启示。”
ESM宏基因组图(ESM Metagenomic Atlas)数据库包含对6.17亿个蛋白质的结构预测。来源:ESM Metagenomic Atlas (CC BY 4.0)
研究结果于11月1日以预印本[1]的形式发布。该团队利用一个“大型语言模型”进行预测,这类AI是那些只需几个字母或单词就能预测文本的工具的技术基础。
通常来说,语言模型需要使用大量文本进行训练。为了把它们应用到蛋白质上,Rives和同事给它们输入已知蛋白质的序列,这些序列可以用一条由20种不同氨基酸组成的链表示,每个氨基酸都用一个字母表示。随后,这个网络会学习如何在部分氨基酸不可知的情况下“自动补全”蛋白质。
蛋白质“自动补全”
Rives说,这种训练能让该网络获得对蛋白质序列的直觉理解,而蛋白质序列能透露蛋白质结构的信息。第二步——受到DeepMind开创性蛋白质结构预测AI“AlphaFold”的启发——是将这类理解与已知蛋白质结构和序列之间的关系相结合,根据蛋白质序列生成结构预测。
Meta的这个网络名为ESMFold。Rives的团队在今年夏天早些时候表示[2],该网络的准确度不如AlphaFold,但预测速度快了60倍。“这意味着我们可以把结构预测拓展到更大的数据库。”
作为测试,他们决定将模型用在一个批量测序的“宏基因组”DNA数据库上,这些DNA来自环境中的土壤、海水、人体肠道、皮肤和其他微生物生境。这些DNA信息——可编码潜在蛋白质——的绝大多数都来自从来没有培养过、科学界未知的生物体。
Meta团队总共预测了超过6.17亿个蛋白质的结构,而且只用了2周时间(AlphaFold生成单个预测一般需要几分钟)。这些预测结构和模型的底层代码都可免费获取。
在这6.17亿个预测结构中,模型认为有1/3以上的结构属于高质量结构,让研究人员可以信任整个蛋白质结构的准确性,而且在某些情况下还能分辨原子水平的细节。在这些预测中,有几百万个结构是全新的,与针对已知生物的实验解析蛋白质结构数据库和AlphaFold数据库中的结构都不一样。
AlphaFold数据库中的一大部分结构几乎是完全相同的,而“宏基因组”数据库“应能覆盖一大片之前未曾见过的蛋白质宇宙”,首尔大学计算生物学家Martin Steinegger说,“这是揭开这些暗物质面纱的大好机会。”
哈佛大学演化生物学家Sergey Ovchinnikov对于ESMFold预测的数亿个置信度较低的结构感到好奇。有些预测可能缺少清晰的结构,至少单独看起来如此,其他预测可能是将非编码DNA错误当成了某种编码蛋白质的物质。他说:“蛋白质宇宙好像还有一大半是我们完全未知的。”
更清晰、更简单、更便宜
慕尼黑工业大学的计算生物学家Burkhard Rost对于Meta模型在速度和准确度上的综合表现非常赞赏。但他怀疑这个模型在预测宏基因组数据库中的蛋白质时,是否具有超越AlphaFold精确度的优势。基于语言模型的预测方法——包括他的团队开发的一种方法[3]——更适合用来快速确定突变如何改变了蛋白质结构,而AlphaFold做不到这点。他说:“今后的结构预测会更清晰、更简单、更便宜,为新发现敞开了大门。”
DeepMind公司的一名代表表示,公司目前没有在数据库中加入宏基因组结构预测的计划,但不排除未来会公布这类信息。不过,Steinegger与合作者已经利用AlphaFold的一个版本预测了约3000万个宏基因组蛋白的结构。他们希望通过寻找新形式的基因组复制酶,发现新型RNA病毒。
Steinegger认为这类工具的下一个使命是网罗生物学的暗物质。“我相信对这些宏基因组结构的分析很快将迎来一次井喷。”
参考文献:
1. Lin, Z. et al. Preprint at BioRxiv https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2 (2022).
2. Lin, Z. et al. Preprint at BioRxiv https://www.biorxiv.org/content/10.1101/2022.07.20.500902v1 (2022).
3. Weissenow, K., Heinzinger, M. & Rost, B. Structure 30, 1169–1137 (2022).
原文以AlphaFold’s new rival? Meta AI predicts shape of 600 million proteins为标题发表在2022年11月1日《自然》的新闻版块上
© nature
doi: 10.1038/d41586-022-03539-1
点击阅读原文查看英文原文
推广 | 哈尔滨工业大学生命科学中心诚邀海内外优秀青年人才
>> 点击图片查看原文推文 <<
版权声明:
本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考,一切内容以英文原版为准。欢迎转发至朋友圈,如需转载,请邮件China@nature.com。未经授权的翻译是侵权行为,版权方将保留追究法律责任的权利。
© 2022 Springer Nature Limited. All Rights Reserved
星标我们🌟,记得点赞、在看+转发哦!