Science | 基于640万个新冠病毒基因组构建机器学习模型,可识别与适应性相关的突变

生信宝典

共 2761字,需浏览 6分钟

 ·

2022-06-27 19:25

在新冠病毒(SARS-CoV-2)肆虐的两年多时间里,人类经历了一波又一波病毒新谱系带来的感染浪潮,见证了病毒在与人类社会不断对抗过程中的适应与进化。奥密克戎(Omicron)是当前全球主要流行的新冠病毒毒株,该毒株传播速度快、隐匿性强,适应性强。截至目前,已有多个国家报告发现奥密克戎亚型毒株BA.2.12.1、BA.4、BA.5和重组变异株XQ、XE、XM。

SARS-CoV-2在传播、致病和免疫逃逸之间建立的适应性(fitness)是其最重要的病毒学特征。适应性是指影响谱系生长的任何特征,包括基本繁殖数(R0)、逃避免疫的能力和世代时间。通过评估一种毒株的适应性,就能推测出该毒株给社会带来重大影响的可能性。高适应性的病毒突变株会逐渐取代低适应性的突变株。如果能解析出不同毒株的适应性,就可以预测疫情走向,这对指导疫情防控至关重要。

目前,已有超750万个可用的病毒基因组测序数据对外公布。研究人员可通过对数据进行回归分析来检测新出现的毒株,并对毒株的适应性进行比较。但对于现有的系统发育分析方法而言,750万个基因组信息过于庞大,延长了计算时间。此外,受全球地理和文化的差异的影响,各地区以不同的方式与病毒对抗,为分析病毒毒株的传播性增加了额外的负担。

近日,美国麻省理工学院联合哈佛大学博德研究所研究团队在Science上发表了题为“Analysis of 6.4 million SARS-CoV-2 genomes identifies mutations associated with fitness”的文章。研究团队开发了一种名为“PyR0”的算法模型,这是一种贝叶斯分层回归模型,可推断一定地理区域内所有病毒谱系的相对流行率、检测谱系流行率的增加,并识别与适应性相关的突变。数据显示,PyR0可预测可能占主导地位、导致新冠肺炎病例激增变异毒株。此外,该模型还可以帮助科研人员识别可能会发生变异的病毒基因位点,为开发应对未来更多变异毒株的疫苗找到更好的靶点。 

文章发表在Science

截止2022年1月20日,研究团队使用来自全球禽流感数据共享数据库(GISAID)中可用的6,466,300个SARS-CoV-2基因组数据(数据包含3,000个集群,来源于1,544个PANGO谱系和2,904个非同义突变),对PyR0模型进行了拟合分析。通过对统计分析框架的优化和数据的整理,该模型评估出目前常见的SARS-CoV-2谱系的适应性(图1)。模型分析结果显示,所有的病毒谱系都随时间呈上升趋势,适应性更高的优势谱系会影响和中断之前的优势谱系。此外,一些PANGO谱系在某些地区具有多个连续的峰值。研究团队通过算法将1,544个PANGO谱系划分成3,000个更精细的集群,发现不同PANGO亚谱系具有显著的异质性

研究团队通过PyR0模型准确推算出Omicron BA.2具有迄今为止最高的适应性(图1),比最早出现的原始毒株(谱系A)高出8.9倍,并准确预示了该毒株将在其流行的国家/地区取代其他毒株,成为主导毒株。同样,PyR0模型还在2020年11月底之前识别出阿尔法毒株(B.1.1.7)的竞争优势,这比世界卫生组织将其列为“值得关注的变异株(VoC)”提前了一个月。综上所述,PyR0模型能提供早期预警并帮助识别VoC,这证实了其对公共卫生的实用性,凸显出快速共享基因组数据的价值。 

图1. SARS-CoV-2不同谱系的适应性。来源:Science

进一步,研究团队分析了单个氨基酸突变对于病毒适应性的影响。通过对SARS-CoV-2中的基因突变与病毒适应性的相关程度进行分析,确定了2,904个氨基酸突变,并依据显著性对其进行了排序。已知SARS-CoV-2基因组编码四种结构蛋白,即刺突蛋白(spike,S)、包膜蛋白(envelope,E)、膜蛋白(membrane,M)和核衣壳蛋白(nucleocapsid,N)。研究团队发现在S基因、N基因和ORF1多蛋白基因(ORF1a、ORF1b)中,与病毒适应性相关的基因突变较多(图2A)。

在S基因中,研究团队确认了三个增强病毒适应性的突变热点,每个热点都在一个确定的功能区域内:N末端结构域、受体结合结构域(RBD)和furin蛋白酶切位点(图2B)。

通过可视化建模,研究团队分析了S蛋白、核衣壳N端结构域、聚合酶和两种蛋白酶原子结构中得分最高的突变(图2C-E)。结果显示,S基因中许多顶级突变发生在与ACE2受体直接接触的RBD中,包括K417N/T和E484K。另外两个顶级突变(T478K和S477N)发生在与S-ACE2界面相邻的flexible loop中。 

图2. SARS-CoV-2中关键蛋白氨基酸突变影响的评估。来源:Science

最后,研究团队检测了单个感染周期RBD中的几个高分突变(图3A,红色表示具有显著差异,黑色反之)。结果显示,虽然一些个体突变增加了传染性,但平均而言,高分RBD突变并未增加传染性。因此,研究团队考虑了另一种可能性,即S蛋白突变导致的适应性提高不是因为传染性增加,而是免疫逃逸能力的提升。使用RBD聚集突变作为免疫逃逸的代表,研究团队发现S蛋白突变的适应性增强效应与Greaney等人研究得到的抗体逃逸估计值密切相关。上述结果表明,免疫逃逸能力提升是当前SARS-CoV-2适应性增强的主要驱动力。 

图3. 突变特异性效应的表征。来源:Science

综上所述,PyR0提供了一种自动化全基因组方法来检测具有更高适应性的病毒谱系。通过将基于模型的谱系适应性评估与绝对病例计数相结合,该模型提供了新冠大流行前两年事件的全球图谱。PyR0可以识别适应性增加的突变和基因区域,突变水平的信息可能更有助于科研人员检测到具有威胁性的病毒株系。此外,PyR0还可以自动化预测和分析新冠病毒的演化,为公共卫生防疫政策的制定提供一定的参考作用。

参考资料:
Obermeyer F, Jankowiak M, Barkas N, et al.  Analysis of 6.4 million SARS-CoV-2 genomes identifies mutations associated with fitness.Science, abm1208. DOI: 10.1126/science.abm1208.

· END ·

热文推荐


往期精品(点击图片直达文字对应教程)

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集



浏览 29
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报