AlphaFold:生物界的“AlphaGo”
在自然界中,蛋白质是氨基酸链,可以自发折叠成10后面300个0的形状。蛋白质的三维结构决定了其功能,我们知道的包括癌症、痴呆等几乎所有疾病,都与细胞内蛋白质结构变化相关,如果能够掌握蛋白质结构的变化,知道蛋白质如何折叠时,那么将对疾病的预防、治疗等带来重要影响。
从1950年代开始,使用X射线束照射结晶的蛋白质并将衍射光转化为蛋白质原子坐标的技术,确定了蛋白质的第一个完整结构。X射线晶体学已经证明了蛋白质结构的绝大部分。通常情况下,识别单个蛋白质的结构需要耗费科学家数年时间。如今,融合了生物学、物理学和机器学习的AlphaFold能在几天内提供精确到一个原子的结果。GDT(Global Distance Test) 的分值在0-100之间,GDT 可以大致地被认为是氨基酸残基在阈值距离内与正确位置的百分比。2006-2016年间,这个数字最高在40左右。2018年,上一代的 AlphaFold得分一下子突破了50。而这次的新一代 AlphaFold,在蛋白结构预测大赛里的中位得分超过了92.4。90分左右的 GDT 可以被认为是与实验方法得到的结果相竞争的。这意味着AlphaFold预测的平均误差(RMSD)仅为1.6 埃(1埃等于0.1nm),相当于一个原子的宽度。
AlphaFold在国际蛋白质结构预测竞赛(CASP)上大幅超越其它选手,其准确性可以与使用冷冻电子显微镜(CryoEM)、核磁共振或X 射线晶体学等实验技术解析的3D结构相媲美。基于AlphaFold的新突破,人类未来也可能更快地发现更先进的新药物。AlphaFold使用了公开数据,该数据包括来自蛋白质数据库的约170,000种蛋白质结构以及包含未知结构蛋白质序列的大型数据库。它使用了大约128个TPUv3内核(大约相当于100-200个GPU),运行了数周。不过,在当今机器学习中使用的大多数大型最新模型的情况下,该计算量也还适中。