Nat. Commun. | 利用统计学驱动的图网络准确预测蛋白质功能-技术圈

   
    
     
      
       来源：DrugAI
      
     
    
   
   
    
     
      
       
        本文约4000字，建议阅读5分钟
        在本论文中，作者提出了一种方法，利用统计驱动的图网络仅从序列中预测蛋白质功能。

今天为大家介绍的是来自Benoit Kornmann团队的一篇论文。理解蛋白质功能对于掌握许多关键生物活动背后的复杂机制至关重要，并在医学、生物技术和药物开发等领域具有深远的影响。然而，超过两亿种蛋白质仍未被表征，计算研究主要依赖蛋白质结构信息来预测质量不一的功能注释。在此，作者提出了一种方法，利用统计驱动的图网络仅从序列中预测蛋白质功能。该方法本质上能够表征进化特征，从而定量评估执行特定功能的残基的重要性。PhiGnet不仅在性能上优于其他方法，还能够在缺乏结构信息的情况下缩小序列与功能之间的差距。研究结果表明，将深度学习应用于进化数据能够在残基层面上突出功能位点，为研究和生物医学领域解释蛋白质的现有特性及新功能提供了重要支持。

截至目前，UniProt数据库中已有超过3.56亿种蛋白质被测序，其中大多数（约80%）尚未有已知的功能注释（例如酶分类编号和GO编号）。传统的蛋白质功能注释方法受限于序列的庞大规模，大多数功能注释都是在蛋白质层面进行的，而非残基层面。作为这些传统方法的替代，计算方法已被用于为蛋白质分配功能注释。值得注意的是，深度学习方法在预测蛋白质三维结构方面取得了显著的准确性，超越了诸如从头算方法和同源建模等传统方法。这些方法涉及数百万个参数，在不对输入和输出数据样本之间的关系做任何假设的情况下运行（例如AlphaFold和RoseTTAFold）。与传统方法不同，基于深度学习的方法通过在大量数据集上训练神经网络，直接学习大量参数，从而能够将输入数据准确映射到预期输出。然而，精确地为蛋白质分配功能注释仍然具有挑战性，特别是与实验测定相比。尽管有丰富的数据可用于训练基于深度学习的方法，无论是单一氨基酸序列、大量同源序列的比对，还是蛋白质结构信息，实现精确的蛋白质功能预测仍然是一个持续的挑战。将基于物理的知识与现有数据集相结合，物理驱动的深度学习方法在多个领域推动了近期的进展。作为对传统和纯深度学习技术的有力替代，它们增强了机器学习构建可解释的科学问题解决方法的能力。尽管经过数十年的努力，为蛋白质分配功能比预测其三维结构更为艰难。利用结构信息的最新方法在精确分配蛋白质功能方面取得的成功较少。这主要归因于实验测定的蛋白质结构相对于大量可用序列的稀缺性。此外，计算预测的结构在置信度上存在差异，可能并不总是可靠地用于估计蛋白质功能注释，导致功能注释的准确性不稳定。此外，使用评分函数可靠地评估残基对功能贡献的重要性仍然具有挑战性，因为对残基作用的定量表征尚未完全理解。

为了解决这些挑战，作者设计了一种基于统计驱动的学习方法，称为PhiGnet，用于促进蛋白质功能注释和功能位点的识别。该方法利用从进化数据中获得的知识，驱动两个堆叠的图卷积网络。通过获得的知识和设计的网络架构，这种方法能够准确地为蛋白质分配功能注释，并且重要的是，可以量化每个残基在特定功能中的重要性。

模型部分

图 1

在本研究中，作者开发了PhiGnet方法，利用统计驱动的图网络对蛋白质功能进行注释，并基于序列在不同物种间识别功能位点（见图1）。为了融合进化耦合（EVC，即两个共变位点上成对残基之间的关系）和残基群体（RCs，即残基之间的层级相互作用）的知识，作者设计了一种双通道架构，采用堆叠的图卷积网络（GCNs）（见图1a）。这种方法专门用于为蛋白质分配功能注释，包括酶分类（EC）号和基因本体论（GO）术语（生物过程BP、细胞成分CC和分子功能MF）。首先使用预训练的ESM-1b模型生成输入蛋白质序列的嵌入表示。然后，将嵌入表示作为图节点，连同EVCs和RCs（图的边）一起输入到双堆叠GCNs的六个图卷积层中。这些层与一个包含两个全连接（FC）层的模块协同工作，细致地处理来自两个GCNs的信息，最终生成一个概率张量，用于评估为蛋白质分配功能注释的可行性。此外，使用梯度加权类别激活映射（Grad-CAMs）方法生成的激活评分，用于评估每个残基在特定功能中的重要性。该评分使PhiGnet能够在单个残基层面精确定位功能位点（图1c底部）。

作为一个例子，作者计算了含丝氨酸-天冬氨酸重复序列的蛋白质D（SdrD）的残基群体（RCs）。这种蛋白质通过抑制先天免疫介导的细菌杀伤作用，促进细菌在人体血液中的生存。两个残基群体映射到一个完全由β折叠组成的结构上，该结构与三个Ca2+离子结合（一个Ca2+被包裹在一个环中，另两个Ca2+更靠近溶剂暴露的位置，靠近第三个Ca2+，由天冬酰胺（N564）和天冬氨酸（D665）协调，见图1b）。在群体I中，大多数从EVCs中识别出来的残基（以红色棒表示）与三个Ca2+离子结合，共同稳定了SdrD的结构。这表明，即使这些残基在残基群体中分布稀疏，EVCs仍包含推导残基功能角色的关键信息。在EVCs和RCs的支持下，作者实现了当前的PhiGnet方法，用于评估残基的功能重要性。作者使用PhiGnet计算了相互滑动运动（mutual gliding-motility，MgIA）蛋白（注释为EC 3.6.5.2）的功能位点的激活评分（见图1c）。结果显示，具有高评分（≥0.5）的残基与BioLip数据库中的数据一致。此外，这些残基位于最保守的位置（见图1c左上角）。当将这些评分映射到MgIA的三维结构上时，激活评分突出了构成与鸟苷二核苷酸（GDP）结合的口袋并在促进核苷酸交换中发挥作用的残基（红色）。这些结果表明，功能位点的残基在自然进化过程中是保守的，且PhiGnet能够捕捉到这些信息，即使在缺乏结构数据的情况下，也能改进在残基层面预测蛋白质功能的性能。

PhiGnet注释蛋白质的功能位点

许多蛋白质通过分布在不同结构层次（如一级、二级和三级结构）上的关键残基来执行其生物功能，这些残基与功能位点（如酶活性位点、配体结合位点或蛋白质-蛋白质相互作用位点）相连。由于氨基酸在不同功能中的贡献可能显著不同，PhiGnet的一个关键特点是能够定量评估单个氨基酸对特定功能的重要性，从而帮助识别与特定生物活动相关的残基。

图 2

计算预测的准确性是否与实验确定的功能注释相当？为了解答这个问题，作者利用激活评分对每个氨基酸对蛋白质功能的贡献进行了定量分析。作者评估了PhiGnet的预测性能，并分析了九种蛋白质中残基的重要性（它们对蛋白质功能的贡献），这些蛋白质包括胞质磷脂酶的c2结构域（cPL）、酪氨酸蛋白激酶BTK（TpK-BTK）、核糖激酶、α-乳白蛋白（αLA）、MCM1转录调节因子（MCM1-TR）、Fos-Jun异二聚体（FosJun）、胸苷酸激酶（TmpK）、Ecl18kI，以及幽门螺杆菌尿苷酸激酶（HPUK）。这些蛋白质的大小从约60到320个残基不等，具有不同的折叠结构，并执行多种功能，包括配体结合、离子相互作用和DNA结合。作者计算了这九种蛋白质中每个残基的激活评分，并将其与通过实验或半手动注释识别的残基进行了比较。结果表明，该方法在预测残基层面的重要位点时表现出较高的准确性（平均≥75%），并与实际的配体/离子/DNA结合位点高度一致（见图2）。每个残基的激活评分映射到它们的三维结构上，显示出在结合界面处功能相关性的显著富集。PhiGnet能够准确识别具有高激活评分的功能性重要残基（见图2）。

PhiGnet优于其他最先进的方法

图 3

为了评估PhiGnet的预测性能，作者使用该方法推断了两个基准测试集中的蛋白质功能注释（EC编号和GO术语）。随后，将PhiGnet与现有的最先进方法进行了比较，包括基于比对的方法（如BLAST、FunFams和Pannzer），以及基于深度学习的方法（如DeepGO、DeepFRI、DeepGOWeb、ProteInfer、SPROF-GO、ATGO+和CLEAN）。作者采用了两个重要指标进行比较：蛋白质中心的Fmax评分和精确度-召回曲线下面积（AUPR）。PhiGnet在两个测试集中展示了分配蛋白质功能注释的预测能力，分别在GO术语和EC编号上取得了平均AUPR为0.70和0.89，以及Fmax评分为0.80和0.88的结果（见图3）。此外，它还在GO术语的三个分支——CC、BP和MF上表现出持续稳定的性能，分别获得了平均AUPR为0.64、0.65和0.80，以及对应的Fmax值为0.82、0.75和0.81的成绩（见图3d）。总体而言，PhiGnet在基准数据集上显著优于所有监督和非监督方法。例如，在EC编号的基准测试中，作者将包括BLAST、FunFams、DeepGO、DeepFRI、Pannzer、ProteInfer和CLEAN在内的各种方法的预测结果与测试蛋白质的实验确定功能注释进行了比较。PhiGnet的Fmax评分为0.88，AUPR为0.89，超越了其他方法的表现（见图3a、b）。比较方法在精确度-召回曲线中表现出不同的性能，DeepFRI、Pannzer和ProteInfer的Fmax评分相近，约为0.68，优于BLAST和DeepGO。在AUPR方面，FunFams、DeepFRI和CLEAN表现相近，优于ProteInfer和Pannzer。PhiGnet分别获得了Fmax为0.88和AUPR为0.89的结果，优于基于CNN的DeepGO（Fmax为0.37，AUPR为0.21）、基于结构的DeepFRI（Fmax为0.69，AUPR为0.70）和基于对比学习的CLEAN（Fmax为0.76，AUPR为0.70）（见图3a、b）。这些结果表明，PhiGnet能够准确分配EC编号给蛋白质。在GO术语的基准测试中，作者将该方法与九种最先进的方法进行了比较，并使用相同的指标来评估它们的性能。在CC、BP、MF本体的预测中，PhiGnet分别获得了Fmax为0.82、0.75、0.81和AUPR为0.64、0.65、0.80的成绩，显著优于所比较的方法。值得注意的是，尽管基于集成网络的ProteInfer在MF和BP本体上优于其他方法，无比对的SPROF-GO和基于结构的DeepFRI在CC本体上表现出色，PhiGnet的表现仍然优越（见图3d、e，补充图S4-S7，表S1）。比较GO术语的预测性能，作者发现PhiGnet在准确性和稳健性方面均排名第一，显著优于上述八种方法和另一个网络服务器预测结果DeepGOWeb（见图3d-f）。

此外，作者展示了PhiGnet在应对测试蛋白质时的泛化能力的稳健性，测试蛋白质的序列同一性阈值与训练集中的蛋白质相比有所不同。在不同的最大序列同一性水平（30%、40%、50%、70%和95%）下，随着序列同一性的增加，PhiGnet表现出更好的预测性能（见图3c，补充图S5）。在EC编号的测试集中，PhiGnet被评为前两名最稳健的方法，在序列同一性为30%和40%时，分别达到了0.61和0.72的Fmax值，显示出一致的预测性能。与基于结构域的FunFams方法（Fmax分别为0.67和0.74）相比，PhiGnet在序列同一性阈值为30%和40%时略逊一筹。然而，当序列同一性超过50%时，PhiGnet表现出了相当或更好的性能。类似地，随着序列同一性的增加，DeepFRI、FunFams、ProteInfer和CLEAN的性能也有所提升。Pannzer在序列同一性低于50%时表现出类似的趋势，但其性能基本保持不变，Fmax略有下降。相比之下，BLAST和DeepGO在测试集中蛋白质与训练集中的序列同一性增加时，仅表现出轻微的改进。PhiGnet在预测GO术语的三个分支时也表现出了稳健的预测性能，即使在低序列同一性下仍保持较高的准确性。在EC编号和GO术语的预测中，作者还计算了预测分数与真实结果之间的马修斯相关系数（MCC），以定量比较各种方法的性能。PhiGnet的平均MCC为0.76，高于其他十种最先进方法的平均MCC（见图3f）。

参考资料

Jang, Y. J., Qin, Q. Q., Huang, S. Y., Peter, A. T. J., Ding, X. M., & Kornmann, B. (2024). Accurate prediction of protein function using statistics-informed graph networks. Nature Communications, 15(1), 6601.

编辑：文婧

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU