NAR | 陈加余/陈亮合作建立R-loop全基因组分布与调控的专家数据库
共 2079字,需浏览 5分钟
·
2021-11-26 18:25
R-loop是由RNA:DNA杂合链和非模板单链DNA构成的三链结构,广泛存在于从细菌到人类等物种的基因组中。R-loop结构主要随细胞转录活动产生,受细胞精细调控而处于高度动态变化当中。生理水平下的R-loop结构密切参与转录调控、组蛋白与DNA的表观遗传修饰调控、DNA损伤修复、免疫球蛋白类型转换等生物学过程,并作为调控网络的一环,与蛋白因子协同发挥着重要的调控作用。另一方面,R-loop调控异常会造成染色质状态改变,基因转录失调和基因组稳定性下降等。研究表明R-loop调控蛋白的突变与R-loop的异常积累是导致神经退行性疾病、癌症、自身免疫性疾病等的潜在诱因之一。
正是由于R-loop在生理和疾病条件下发挥着重要功能,R-loop受到了科学家们的广泛关注。特别是近年来,多种R-loop高通量测序技术的涌现极大推动和拓展了我们对R-loop调控与功能的认知。但是也因此产生了长期困扰领域内学者的若干问题:由于不同R-loop鉴定技术的原理和实验流程存在巨大差异,目前已发表的R-loop图谱数据存在明显的技术偏好性,领域内学者对R-loop的具体分布以及相关的调控机制和分子功能争论不断;此外,目前我们对R-loop的调控网络和不同生理和病理条件下R-loop的调控机制与功能都还缺乏系统性认知,因此距离利用该机制进行疾病的干预研究尚有较大距离。如何应对和解决这些科学问题,推动R-loop基础理论积累与健康研究相结合正是领域内的研究热点方向。
针对上述问题,2021年11月18日,南京大学陈加余研究员团队与武汉大学陈亮研究员团队在Nucleic Acids Research上发表了题为R-loopBase: a knowledgebase for genome-wide R-loop formation and regulation的论文,构建了首个集R-loop分布与调控于一体的数据库R-loopBase,从统一不同检测技术的共性以鉴定高置信度的R-loop形成区域,到对R-loop调控蛋白的系统梳理和注释等方面做出了相应的信息整合与可视化呈现,为领域内学者以及对R-loop有兴趣的其它研究人员提供了一个便于检索查阅的数据资源。
首先,作者收集了目前已发表的来源于11种R-loop检测技术、26种人类组织和细胞的107套高质量全基因组R-loop检测数据,并经过严格质控和标准化分析,最终形成R-loopBase的基础支撑数据。与先前的研究一致,作者发现不同技术甚至同一技术检测到的R-loop在基因组中的分布存在巨大差异。为了从繁杂且高异质性的数据中找到真实的R-loop 形成区域并总结其特征,作者通过数据整合分析,将全基因组所有可能的R-loop形成区域分成了不同置信度等级。数据表明,高置信度的R-loop与已知的R-loop结构的序列和生化特征高度吻合,支持了该整合分析过程的鲁棒性,其结果也为R-loop在全基因组中的确切分布提供了重要参考,便于使用者从中查询感兴趣的研究区域。
其次,作者整合了人、小鼠、酵母和大肠杆菌中所有已知的1293个R-loop调控蛋白,并对这些蛋白的分子功能和基因表达谱等一一进行了详细注释。通过蛋白质互作网络分析与GO、KEGG富集分析,作者揭示了R-loop整体调控的全景图,为R-loop调控蛋白提供了系统性的认识(图1)。进一步,作者鉴定了这些R-loop调控蛋白的目标调控区域,为R-loop的相关调控机制提供了重要的参考。
图1. R-loop调控蛋白的互作网络图
最后,为了方便R-loop相关研究者能充分利用上述信息,作者进一步整合了丰富的多维组学数据资源并构建了一个交互式R-loop专家数据库界面R-loopBase(图2)。用户可以通过基因名称、位置坐标和序列检索自己感兴趣区域的R-loop形成情况;可以在“R-loop调控蛋白”界面检索感兴趣的蛋白,了解其与R-loop相关的调控信息及调控区域;另外,用户可通过R-loopBase的基因组浏览器对上述数据进行可视化。该数据库有望成为研究R-loop生物学的重要利器。
图2. R-loopBase的数据资源(A)与架构(B)
南京大学陈加余研究员、武汉大学陈亮研究员和芝加哥大学钟晓明博士为论文的共同通讯作者。南京大学硕士研究生林若尧、周永莉,芝加哥大学的钟晓明博士为论文的共同第一作者。
原文链接:
https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkab1103/6430826
往期精品(点击图片直达文字对应教程)
后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集