GPB | GenBase:汇交、存储、管理与共享核酸和蛋白质序列的基因序列数据库
共 7221字,需浏览 15分钟
·
2024-07-28 21:00
引言
基因序列和注释信息(包括DNA、RNA和蛋白序列信息)是支撑基因功能研究的核心基础数据之一。伴随生物学的迅猛发展,在过去几十年中,我国生命科学领域的科学家产出了海量的基因序列数据,其中许多已经提交到了国际核酸序列共享联盟(International Nucleotide Sequence Database Collaboration,INSDC)。目前,中国和其他国家/地区的研究人员严重依赖INSDC进行序列提交和检索。同时,测序技术的快速发展导致序列数据量的快速增加,这为及时有效的提交和共享带来了巨大挑战。为保障我国基因序列数据的主权和安全,满足我国科研人员在基因序列数据汇交、管理和共享过程中的现实需求,对标美国国家生物信息中心NCBI的GenBank数据库,我们完成了基因序列数据库GenBase的开发(https://ngdc.cncb.ac.cn/genbase/)。
GenBase是国家基因组科学数据中心的核心资源,它采用GenBank的数据模型,通过在线的双语提交系统支持提交多种数据类型,包括基因组DNA、mRNA、ncRNA,以及来源于细胞器、病毒、质粒和噬菌体的核酸序列。此外,GenBase集成了所有来自GenBank的序列,并保持每日更新,提供免费且公开可访问的数据,支持国际数据集的分发和共享,促进中国研究人员的数据访问。
数据模型和数据访问
GenBase的数据模型与INSDC数据模型兼容,并允许与两个CNCB-NGDC元数据描述数据库关联:BioProject 和BioSample。GenBase允许用户一次性批量提交来自多个物种的核酸序列。提交后,系统将生成一个带有 “sub” 前缀的唯一编号。经过质量控制,每个核酸序列被分配一个以“C_”开头,后跟2个字母、6个数字和序列版本号后缀的访问编号。同时,与给定核酸序列相关的每个蛋白质序列会分配一个以“C_”开头,后跟3个字母、5个数字和序列版本号后缀的访问编号(图1)。每当序列发生变化时,序列版本号就会修改。序列以ASN.1格式生成并存储,并以GBFF格式在线显示,这两种格式通常由GenBank使用。
图1 GenBase数据模型
数据提交和验证
通用序列
GenBase构建了一个用户友好、同时支持中英文的通用序列在线提交系统,包含九个部分,即提交者、出版信息、测序技术、序列、集合或批次、类别、元信息、特征和结果预览(图2)。该提交系统支持全面的实时验证。
图2 GenBase整体架构
在“序列”阶段(步骤4),GenBase会对用户上传的序列文件进行在线校验,包括序列格式、序列内容、物种名称、分子类型和遗传密码。在“元信息”阶段(步骤7),GenBase基于Excel格式收集序列相关的57个元数据信息,并对其进行实时校验。例如,对采样地、细胞器/位置等字段进行受控词汇表校验,对收集日期和经纬度进行特定格式校验。在“特征”阶段(步骤8),GenBase支持三种格式的注释文件:5列GenBank特征表、GFF3和Excel格式。用户可选择其中一种格式进行序列注释。GenBase会对用户提交的注释文件进行实时验证。例如,验证注释文件中的所有序列ID是否与核酸序列文件中的ID完全匹配,坐标是否为整数,基因注释是否符合INSDC规范。目前,已有768个特征及其相应的注释信息可用于序列注释。用户在“结果预览”页面确认所有信息后,GenBase使用table2asn(https://www.ncbi.nlm.nih.gov/genbank/table2asn/)对提交的序列进行最终检查,并生成高质量的序列文件(例如:GBFF和SQN文件)。
SARS-CoV-2序列
为了提高SARS-CoV-2序列的汇交效率,GenBase设计了一个专用的SARS-CoV-2序列提交模块。该模块的提交过程与通用序列类似,但集成了VADR程序,可实现对SARS-CoV-2序列进行自动注释。此外,GenBase为SARS-CoV-2提供了专用的元数据Excel文件格式,确保与INSDC和全球共享所有流感数据倡议(Global Initiative on Sharing All Influenza Data, GISAID)的兼容性。
统计信息
自2023年3月24日正式上线以来,GenBase实现了数据量的快速增长(图3A和B)。截至2024年4月16日,GenBase已整合并更新了来自GenBank的270,606,796条核酸序列和305,810,135条蛋白质序列(图3C)。截至2024年4月16日,GenBase已接收用户提交的67,399条核酸序列和681,930条蛋白质序列,涵盖393个物种(图3C)。提交的数据中,62,988条核酸序列(93%)和613,351条注释蛋白质序列(90%)已释放。值得注意的是,在54,884条提交的具有标准化注释的SARS-CoV-2基因组序列中,已有52,147条被发布。
图3 GenBase数据统计(截至2024年4月16日)
检索和下载
在GenBase中,用户可以使用具有31个搜索字段的高级搜索功能进行检索,同时,高级搜索设有保留历史记录功能,便于查看历史检索信息。用户可以使用物种、数据来源、数据类型等过滤条件细化搜索结果,以及使用不同的排序选项(例如,访问编号、修改日期、生物体和序列长度)进行结果排序。GenBase提供四种数据显示格式,并支持批量下载,以满足不同的使用需求。为了便于批量下载FASTA文件,开发了REST API(如https://ngdc.cncb.ac.cn/genbase/api/file/fasta?acc=C_AA001108.1)。此外,还提供了FTP站点(https://download2.cncb.ac.cn/genbase/daily/),方便用户下载GenBase每日发布的核酸和蛋白质序列。
未来发展
GenBase立足中国,服务全球,接收来自全球科研人员的数据提交,可为基因序列数据的汇交、存储、发布和共享提供一站式的Web服务。未来,GenBase将持续致力于努力推进生物领域的研究和发展,包括改进数据提交、检索和展示的Web界面,扩大服务范围,包括基因组注释,例如病毒、线粒体和叶绿体基因组,确保下游数据分析的准确性。此外,我们还将整合用户友好的在线工具,方便序列数据分析,如物种鉴定。最后,我们将通过与INSDC成员共享和交换所有公开可用的核酸序列来促进合作,从而为全球研究人员提供全面的数据资源。
审校人:
GPB青年编委周展
GPB论文:
GenBase: A Nucleotide Sequence DatabaseGenomics, Proteomics & Bioinformatics [基因组蛋白质组与生物信息学报(英文),简称GPB] 于2003年创刊,是由中国科学院主管、中国科学院北京基因组研究所(国家生物信息中心)与中国遗传学会共同主办的英文学术期刊,由牛津大学出版社金色开放获取(Gold Open Access)出版。刊载来自世界范围内组学、生物信息学及相关领域的优质稿件。现为中国科学引文数据库(CSCD)和中国科技论文与引文数据库(CSTPCD)核心期刊,被SCIE、PubMed/MEDLINE、Scopus等数据库收录。2024年公布的官方数据显示,CiteScore为14.3;2年和5年Impact Factor分别为11.5和10.3;2023 JCI为2.58,排名WoS遗传学领域6/191。期刊由科技部等七部门联合实施的“中国科技期刊卓越行动计划“资助(2019–2023)。