Nat Commun |完全开源!肿瘤基因组数据报告解读平台,可满足商业报告解决方案

生信宝典

共 3136字,需浏览 7分钟

 ·

2022-02-21 16:27

随着精准医疗的不断发展,科学研究和临床应用中对癌症基因组数据的解读需求也在增加。虽然目前癌症测序数据分析流程的自动化提高了报告的速度和结果的可重复性,通过使用交互而非静态报告,临床对复杂基因组数据的理解有所改善。但仍然有部分结果的解释难以实现自动化。因此,基因组数据解读仍然是推广精准医学最大的瓶颈之一。
目前,各机构的目标是标准化实验室方法甚至生物信息工具的工作流程,但报告和注释工作流程仍然各不相同,且尚没有用于肿瘤学测序报告的开源网络应用程序。
近日,加拿大Michael Smith基因组科学中心等单位的联合研究团队在Nature Communications发表了题为“A platform for oncogenomic reporting and interpretation”的文章,报道了一个自主开发的完全开源的研究平台——Platform for Oncogenomic Reporting and Interpretation (PORI)。该平台可以通过知识库匹配将不同的注释集成到精确的肿瘤基因测序工作流程中,并为用户提供一个报告界面,以管理、编辑和与结果数据交互。研究团队表示,PORI可以替代商业报告解决方案,适用于精准肿瘤学的全面基因组数据解读,有效促进精准医学的普及和发展。
文章发表在Nature Communications

主要研究内容


PORI可进行灵活的开源报告

研究团队表示,PORI是为了促进全基因组和转录组测序数据的自动化分析而开发的,通过提供一个开源报告平台以实现报告的一致性,以支持精确的肿瘤学研究。PORI平台由两个主要组件组成:知识库(GraphKB)和报告工具(Integrated Pipeline Reports, IPR)
知识库组件GraphKB主要将来自患者数据的变体与文献中已知的注释关联起来,可以整合疾病、药物和基因本体论、生物学证据和来自大量外部数据库的治疗意义。作为标准精准肿瘤学工作流程的一部分,GraphKB通过创建报告的Python模块注释患者突变体。因此,GraphKB既是一个独立的知识库,也是一个综合的解决方案。
PORI的报告组件IPR是一个网络应用程序,接收来自GraphKB集成提供的证据。IPR可用于基因组分析和相应图形的可视化和传递,通过交互式网页应用程序以及相应的文档格式,例如PDF,生成适合为临床人员提供的数据报告。GraphKB和IPR高度集成,这种设计旨在促进临床相关内容的管理。

图1. PORI分析框架示意图,来源:Nature Communications


GraphKB提高了知识库源的一致性

越来越多的癌症知识库已公开可用,为聚集和整合外部临床和生物学知识到癌症基因组分析提供了机会。GraphKB支持从多个外部知识库加载内容,以及直接添加内容。每个知识库包含独特的信息,分别与疾病的治疗、诊断、预后和癌症相关变异等相关。通过比较这些内容,可以确定知识库源之间的一致性。
图2. GraphKB数据集成示意图,来源:Nature Communications
例如,在规范化之前,有769个独特的临床资料结论,在使用本体关系对主题和相关术语进行规范化之后,共得到696个独特的结论,表明虽然不同来源的资料最初看起来可能具有完全不同的内容,但其中部分内容实际上是共享的。因此,通过使用图形模型对内容进行规范化,能够更好地量化一致性。

图3. 不同来源临床信息资源整合前后的比较,来源:Nature Communications


GraphKB提高了整合外部临床资源的能力

利用现有临床资源(例如临床试验注册)的能力是知识库内容最吸引人的用处之一。但是,其中许多资源不使用标准词汇。为了导入临床资源并将其与患者数据相关联,知识库内的词汇表要与所使用的术语相匹配,这个过程高度依赖于涵盖临床资源所使用术语知识库中的标准词汇表。
与其他知识库相比,GraphKB并不强制使用单一的首选或标准词汇,而是在导入期间对来自外部知识库的条目结构进行标准化,以匹配原始术语和特性。因此,每个数据集定义的链接可以相互引用,以此减少了所需的词汇数量。

图4. GraphKB 网页应用程序的内容和可视图,来源:Nature Communications


使用外部数据检验PORI的实用性

为了证明PORI在使用外部数据和支持多种数据类型方面的灵活性,研究人员使用PORI分析了来自TCGA的队列数据,在所有纳入分析的基因数据中,有37916个表达异常值,28272个独特的蛋白质编码小突变,50124个拷贝变体和527个独特的融合基因。
在这些样本中,88.2%可匹配一种或多种治疗方案,其中38.1%匹配一级美国分子病理学会 (Association for Molecular Pathology, AMP)证据水平。当考虑疾病类型时,62.4%有治疗性资料陈述,其中34.8%符合一级AMP证据水平。
图5. 利用PORI对TCGA样本进行治疗匹配,来源:Nature Communications
与此同时,大部分样本的治疗匹配来自单一的变异类型,说明了包含多种变体类型的重要性。如果在GraphKB集成和报告中只包含一种单一的变异类型,那么根据选择的变异类型,无治疗匹配的样本数量将最少增加25.0%。由于所用公共知识库资源中覆盖面较大,PORI可以从与特定变异类型相关的信息中观察到与治疗匹配的关键突变,提高治疗匹配的患者比例。

图6. 根据每种变异类型组合中获得的治疗匹配样本的比例,来源:Nature Communications

结 语

基因组技术和生物信息学研究的快速发展为肿瘤的精准治疗提供了重要研究手段,同时也带来了重大挑战。因此必须开发简单有效的平台和分析流程,使其能够轻松地整合各种数据资源。该研究报道的PORI通过模块化报告解决了这一问题,在模块化报告中,可以根据需要添加或删除与特定专门分析相对应的部分。
虽然PORI迈出了为精确肿瘤基因组报告创建开源标准工具的重要第一步,但其发展仍有许多需要完善的部分。最令人兴奋的领域也许是在分析过程中从用户操作中捕获数据的应用,以迭代地改进和进一步自动化未来的分析。
参考文献:
1. Reisle, C., Williamson, L.M., Pleasance, E. et al. A platform for oncogenomic reporting and interpretation. Nat Commun 13, 756 (2022).
2. Tate, J. G. et al. COSMIC: the catalogue of somatic mutations in cancer. Nucleic Acids Res 47, D941–D947 (2019).
3. Wagner, A. H. et al. A harmonized meta-knowledgebase of clinical interpretations of somatic genomic variants in cancer. Nat. Genet. 52, 448–457 (2020).

· END ·

往期精品(点击图片直达文字对应教程)

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集



”吧
浏览 36
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报