图卷积神经网络分析复杂碳水化合物
来源:DeepHub IMBA 作者:Daniel Bojar 本文约2800字,建议阅读5分钟 本文介绍了如何使用PyTorch处理生物数据。
图卷积神经网络 (GCN) 在过去几年中引起了越来越多的关注,越来越多的学科开始使用它们。这也已扩展到生命科学领域,因为 GCN 已被用于分析蛋白质、药物,当然还有生物网络。实现这种扩展的 GCN 的一个关键优势是它们能够在本地处理非线性数据格式,这与更线性的数据结构(如自然语言)形成对比。由于此功能,我们还为自己感兴趣的主题(复杂碳水化合物或聚糖的研究)使用了 GCN。
聚糖在生物学中无处不在,装饰每个细胞并在病毒感染或肿瘤免疫逃避等过程中发挥关键作用。它们也是极其多样化的生物序列,由数百个独特的构建块组成,相比之下,蛋白质为 20 个,DNA/RNA 为 4 个,它们也可以在不断增长的聚糖链中以几种不同的配置组合。最后,聚糖是唯一的非线性生物序列,自然形成广泛的分支,这些分支本身可以进一步分支。因此,它们是图子类的一部分,即树。这使得聚糖成为在生物学中适当应用 GCN 的主要候选者。
以前,我们开发了通过将聚糖序列视为一种生物语言来分析聚糖序列的技术。我们使用循环神经网络设置来解决聚糖序列的非线性问题,以预测它们的免疫原性、对致病性的贡献和分类学起源。这在一定程度上效果很好,超过了基线,例如使用基于主题频率的随机森林。然而,我们相信更强大的算法,能够适应聚糖的树结构,将改进现有的应用程序,并在聚糖的研究中实现新的方法。这就是为什么我们转向 GCN 来设置分析聚糖的最新技术。
GCN 通过图中的邻居来表征节点,或者更准确地说,是通过邻居节点的特征来表征节点,从而学习图(或树)中的关系。在我们的案例中,我们将单糖(聚糖构建块,如葡萄糖或半乳糖)及其连接键视为节点。虽然将单糖视为节点并将连接视为边缘似乎更自然,但我们决定反对这种做法,以适应仅由一个单糖和一个连接组成的短而重要的聚糖。为了让我们的 GCN 学习节点邻域的特征,我们首先实现了节点嵌入,以便通过嵌入特征来表示每个单糖和链接类型,这些特征可以由我们的模型学习并用于表征节点邻域。为了最好地表达聚糖的丰富多样性,我们为此使用了 128 维嵌入。
接下来,我们必须选择用于执行图卷积的图内核。这个过程就是上面提到的通过节点及其特征(在我们的例子中,节点类型的嵌入特征)来学习节点的过程。在测试了各种图核之后,我们最终得到了 k 维图神经网络算子,它受 Weisfeiler-Leman 算法的启发来测试图同构,并在我们的数据集上显示出最佳性能。现在,GCN 的伟大之处在于您可以在单个模型中拥有多个图卷积层。这允许您分析不同粒度级别的图形/聚糖。虽然第一层可能只考虑直接连接的节点进行分析,但后续层可以扩展这个所谓的感受野,并考虑节点与图中进一步删除的节点的关系。在我们的案例中,我们选择了一个具有三个这样的层的模型作为同类最佳模型。
这种连续图卷积层的方法允许模型学习图邻域,甚至可以在监督设置中预测下游分类任务的特征图案。为了总结从这些步骤中学到的特征,我们使用池化层将来自图卷积层的显着信息浓缩为后续层。在每个图卷积层之后,我们首先使用一个 topk 池化层,它根据学习的投影分数将图投影到较小的图。然后,我们将全局平均池化和全局平均池化操作的结果连接起来。
这个最终的图形表示,跨越三个图卷积层,然后通过一个完全连接的神经网络路由,以达到对相应任务的最终预测。除了标准的(leaky)ReLU、dropout 和批量归一化设置之外,我们还在这部分中包含了一个所谓的繁荣层。通常,卷积后表示的维数在这最后部分向低维模型输出缓慢降低。然而,繁荣层会暂时增加维度(与瓶颈相反),以允许模型摆脱局部最小值并提高性能。我们将这个最终模型命名为 SweetNet,以向传统上已知和喜爱的碳水化合物类型致敬。现在我们可以看看你可以用 GCN 为聚糖做些什么有趣的事情!
在构建 SweetNet 时,我们确保我们的预测性能优于之前报告的架构,例如上面提到的循环神经网络,在所有报告的任务上。其中一项任务是预测人类免疫系统是否会识别聚糖序列。这是相关的,因为聚糖可能具有很强的免疫原性,例如在过敏原或血型不匹配的情况下,但也具有免疫抑制性,例如在肿瘤免疫逃避的情况下。在我们的数据集上,SweetNet 实现了约 95% 的测试集准确率,完全基于聚糖序列。然后,我们提取了这些序列的图表示,这些序列由经过训练的用于预测聚糖免疫原性的 SweetNet 模型学习,紧接在图卷积层之后。对此进行可视化时,很明显该模型已经学会了区分两类免疫原性/非免疫原性聚糖。更重要的是,在非免疫原性聚糖中,可以看到精细结构,让人联想到不同类别的人类聚糖(当然,它们在同一类别内具有序列相似性)。糖脂和 O-聚糖都与免疫原性聚糖部分重叠,因为这些聚糖存在于我们的粘膜表面,并被具有免疫原性的微生物模仿。
除了其他应用之外,我们还将这个用于聚糖的 GCN 与用于分析蛋白质序列的循环神经网络相结合,以预测病毒和聚糖之间的相互作用。大多数病毒,从流感病毒到 SARS-CoV-2,都需要宿主细胞上的特定聚糖才能感染它们。事实上,病毒与宿主聚糖的匹配可以决定病毒的宿主范围。在流感病毒的情况下,一种特定的蛋白质血凝素负责在细胞进入和感染之前与细胞的聚糖结合。不同的流感病毒株具有不同的血凝素序列,这会影响它们的聚糖结合特异性。这方面的一个例子是禽流感病毒和哺乳动物流感病毒之间的差异。虽然这两种类型的流感病毒主要识别一种称为 Neu5Ac 的特定单糖,一种唾液酸,但禽流感病毒通常仅与 α2-3 构型的 Neu5Ac 结合,而哺乳动物流感病毒更喜欢 α2-6 构型的 Neu5Ac。一个微妙的结构转变,但这是阻止禽流感病毒“跳过”感染人类的唯一障碍。突变禽血凝素以与 α2-6 构型的 Neu5Ac 结合,然后您就可以用这种突变的禽流感病毒感染人类。
血凝素序列与聚糖结合特异性之间的这种明确关系使我们假设我们可以使用模型来学习这些关联并预测流感病毒和其他病毒的基于病毒聚糖的受体。因此,我们建立了一种匹配模型,给定一个血凝素序列和一个聚糖,可以在回归设置中预测这是否会导致结合。我们很幸运,因为我们有大量实验观察到的来自各种流感病毒株的血凝素相互作用的数据集和一组可用于训练和评估模型的聚糖。
训练后,我们确实可以证明一个训练有素的模型用α2-3 连接的Neu5Ac 用于禽流感病毒和α2-6 连接的Neu5Ac 用于哺乳动物流感病毒。此外,该模型还预测了可能与流感病毒结合相关的其他基序,例如硫酸化聚糖基序,这些基序过去曾被认为可能是流感受体。然后我们表明,这项研究也可以扩展到其他病毒,例如轮状病毒,这是婴儿感染的常见原因。在这里,我们可以证明训练有素的模型预测高度复杂的母乳聚糖与轮状病毒蛋白结合,轮状病毒蛋白已被独立证明可以结合和中和轮状病毒,证明了母乳的保护作用。聚糖的这种中和作用,通过与病毒紧密结合并阻止它们与细胞结合,被我们的身体在各种情况下使用,并且也可能为使用我们的模型设计具有改进结合特性的新聚糖提供机会,在未来,可以作为一种新型的抗病毒药物。
这就是在聚糖分析中了解 GCN 当前状态的全部内容!嗯,反正大部分。前往报纸了解更多详情。或者前往新闻稿,获取有关我们研究影响的更易于理解的信息。当然,这里是 SweetNet 的代码,所有使用的数据都可以在 GitHub 或论文的补充表中找到。
SweetNet 代码:
https://github.com/BojarLab/SweetNet
编辑:王菁
校对:林亦霖