NGS基础 - 参考基因组和基因注释文件

生信宝典

共 3066字,需浏览 7分钟

 ·

2019-12-07 23:29

参考基因组和基因注释文件获取

通常测序生成的reads要与参考基因组或参考转录组进行比对,或Pseudo-alignment。所以首先需要获取参考基因组和参考转录组信息。


Ensembl(http://www.ensembl.org/info/data/ftp/index.html)是常用的信息齐全的参考基因组和GTF文件下载网站。


下图列出了几个常用动物物种的DNA序列GTF格式的基因组注释


4c51c2bc135994900abf5dbec083fad0.webp


Ensembl提供的参考基因组有2种组装形式和3种重复序列处理方式, 分别是primary, toplevelunmasked (dna)、soft-masked (dna_sm)和masked (dna_rm)。一般选择dna.primarydna_sm.primary


  • 为什么选择Primary


    Primary assembly contains all toplevel sequence regions excluding haplotypes and patches. This file is best used for performing sequence similarity searches where patch and haplotype sequences would confuse analysis.


  • 为什么不选择masked



    Masked基因组是指所有重复区和低复杂区被N代替的基因组序列,这样比对时就不会有reads比对到这些区域。


    一般不推荐用masked的基因组,因为它造成了信息的丢失,由此带来的一个问题是uniquely比对到masked基因组上的reads实际上可能不是unique的。而且masked基因组还会带来比对错误,使得在允许错配的情况下,本来来自重复区的reads比对到基因组的其它位置。


    另外检测重复区和低复杂区的软件不可能是完美的,这就造成遮盖住的重复序列和低复杂区并不一定是100%准确和敏感的。


    soft-masked基因组是指把所有重复区和低复杂区的序列用小写字母标出的基因组,由于主要的比对软件,比如BWAbowtie2等都忽略这些soft-mask,直接把小写字母当做大写字母比对,所以使用soft-masked基因组的比对效果和使用unmasked基因组的比对效果是相同的。


基因注释GTF文件在分析转录组数据时会用到,也从这获取,GTF文件的解释见文件格式部分。


ENSEMBL的基因注释文件与GeneCode(http://www.gencodegenes.org/)V26版本一致。


ENSEMBL中基因组和GTF文件中染色体的名字都没有添加chr,最好收到添加,以保持与UCSC或下游操作一致。(本地安装UCSC基因组浏览器)


下载基因功能和结构注释信息

ENSEMBL数据库的BioMart (http://www.ensembl.org/biomart/martview)工具为下载基因的功能信息、序列信息、结构信息、ID的转换等提供了很大的便利。


注意在BioMart的Attribute选项里如果选择了蛋白相关的选项,得到的结果中只有蛋白编码基因的信息。如果要下载所有基因信息,请不要选择蛋白相关的选项。


具体使用如下,下载基因相关信息,首先选择Ensembl Genes 89数据集


28bad01a0eefb8d838a048175fafc94c.webp


以Human为例,选择Human genes (GRCh38.p10)


aa7c73d45f0d1bb60e90ecc2b46de051.webp


如果下载全部的基因信息,Filters部分可以略过不填。如果只想下载比如说某个GO通路的基因或给定列表的基因信息,可以在Filters中指定对应的GO ID


28d336190fbbdf27e460d70b779accb6.webp


Attribute中包含基因的名字、位置、注释、在不同数据库中的名字、GO注释、KEGG注释、功能域信息等,按需选择下载。


495ea257e28873fbd9c13b3c8d530fe1.webp

c1a97b8f9bb3cd2b7823b59032dfadf2.webp


选择好后,点击Results,获取结果。


d95592ae293251e5916f8304afae25b4.webp


Export al results to选择存储到文件中。如果特别大,而自己网速又比较慢,可以选择通过邮件发送下载链接


b15ad5f64901ac0c3ce1c957a684da92.webp


也可以通过Biomart提取基因结构信息,比如5’ UTR、3’ UTR、外显子、内含子的坐标等。


a9d20dd4077c14120692c4a15b9dd83d.webp


Biomart下载很方便,但一个点击也比较麻烦,可以看到截图中存在XML按钮,点击打开看到选择的下载信息都记录在了这个文件中。


cf534a8609e600f78c9d6d36b9a0c892.webp


使用wget -O result.txt 'http://www.ensembl.org/biomart/martservice?query= + XML中的内容 (调整为一行,并且行尾加一个单引号)即可反复使用。如果想换一个物种,只需修改对应的Dataset name即可。Linux命令系统学习见生信宝典文章集锦



转录组研究


高颜值免费在线绘图




往期精品

画图三字经 生信视频 生信系列教程 

心得体会 TCGA数据库 Linux Python 

高通量分析 免费在线画图 测序历史 超级增强子

生信学习视频 PPT EXCEL 文章写作 ggplot2

海哥组学 可视化套路 基因组浏览器

色彩搭配 图形排版 互作网络

自学生信 2019影响因子 GSEA 单细胞 

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集




浏览 23
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报