QB期刊:纪念人类基因组草图发表20周年系列文章 | Michael Q. Zhang教授分享个人研究历程及学科发展思考
2021年是人类基因组草图公布的20周年,QB期刊非常荣幸地邀请到了一批曾在人类基因组计划(HGP)中发挥重要作用并做出突出贡献、或见证HGP重大进展和影响的杰出科学家,为大家分享HGP背后的故事。我们相信这些故事不仅可以带给大家很多见解,也可以为定量生物学未来的发展提供启示。在上一篇文章中Michael S. Waterman教授讲述了HGP最早的那段历史(点击这里阅读全文)。
今天和大家分享的是Michael Q. Zhang教授的一篇 “A personal journey on cracking the genomic codes”的故事(点击文末“阅读原文”下载PDF全文)。从Michael Q. Zhang教授个人的研究经历中,我们可以了解到人类基因组从序列读取到功能研究的精彩历史细节,并且获知他从事生物信息研究的宝贵经验与深刻思考。
Michael Q. Zhang
Profile
Michael Q. Zhang教授是国际权威的计算生物学和基因组学研究专家,他是最早致力于利用计算生物学方法解码基因组信息的科学家之一。他早期的成就包括开发了第一个人类基因和启动子的预测算法。他利用DNA芯片分析酵母动态基因表达和细胞周期调控的工作开创了计算功能基因组学的新时代。2013年,Michael Q. Zhang教授和汤超教授共同作为Editors-in-Chief创办了Quantitative Biology期刊。Michael Q. Zhang教授目前任职于德克萨斯大学达拉斯分校,是该校教授和Cecil H. and Ida Green Distinguished Chair of Systems Biology Science。在此之前,他曾在冷泉港实验室(CSHL)的沃森生物科学学院担任教授多年,还担任清华大学兼职教授、杰出客座教授及北京大学定量生物学中心的学术委员会主任。
文章概要
Michael Q. Zhang教授于1979年考入中国科学技术大学学习机械工程。1981年,在李政道先生发起和组织的CUSPEA项目资助下,他到美国罗格斯大学师从Joel Lebowitz教授研究非平衡统计物理学。在此期间,他访问了哈佛大学的Author Jaffe教授,并学习了SUSY(Supersymmetry)场论。1987年,他在Jerry Percus教授的指导下进行非均匀流体模型的密度或熵泛函的博士后研究,随后在纽约大学Courant研究所与Peter Lax教授进行可积系统研究。
研究生及博士后研究生活,使Michael Q. Zhang意识到评估本科生的标准是知识的吸收程度,而研究生则要进行知识的生产,所以他严格要求自己以便使自己每年至少发表一篇研究论文,并且他还意识到对科学问题的选择比解决科学问题更重要。
和许多物理学家一样,Michael Q. Zhang也受到薛定谔《生命是什么》的启发。1991年,Michael Q. Zhang作为计算基因组研究的研究员加入了由Jim Watson(美国NIH人类基因组研究办公室(OHGR)的第一任主任)和Tom Marr(原来任职于Los Alamos National Laboratory (LANL, T10 Group)的 GenBank)在CSHL创建的第一个生物信息学团队。此时正值HGP(1990-2005)项目开始阶段,HGP改变了Michael Q. Zhang教授的学术生涯,使他从一位物理学家转变成了生物学家。
Michael Q. Zhang教授在CSHL从物理学转向生物学研究时,他认真学习了生物学及基因组学相关课程及实验操作方法。这段学习经历使他意识到:当一个生物信息学专业的学生收到原始数据时,首要任务不是深入分析数据,而是要知道(1)数据是如何产生的,以及可能发生错误的主要根源; (2)检查数据的质量和数量是否足够使用,并立即反馈此类QC信息。任何计算生物学家都必须对生物学抱有真挚的爱,并且对实验工作要有真挚的欣赏,这样才能赢得合作者的信任。
在开展生物学研究方面,Michael Q. Zhang教授的研究领域从基因到启动子、增强子等顺式调控元件,从转录到RNA剪接等转录后调控,从表观遗传学到4D基因组学进行了全面而又深入的研究。在探索每一领域时,Michael Q. Zhang教授时刻跟踪最新研究成果,不断提出新的科学问题,并积极解决这些问题。
在基因发现与功能基因组学研究领域,Michael Q. Zhang教授认为内含子-外显子识别问题比较重要,因为该问题是断裂基因结构预测的关键点。因此他们实验室开发了POMBE算法用于支持裂变酵母基因组图谱构建和测序项目。另外他们还在人类基因结构预测方面也取得了很大成就,即将人类全部外显子系统划分为16类。在此期间,Michael Q. Zhang教授意识到基因的发现只是HGP项目的首要目标,但紧随其后的是应该是从每个基因和微阵列转录组中量化每个基因mRNA的转录以便进行功能基因组研究。因此,他参与了一项全面鉴定~800个细胞周期调控基因的项目。到目前为止,这一数据集在许多系统生物学课程中被使用。
在启动子和顺式调控元件的发现与调控基因组研究领域,Michael Q. Zhang教授意识到要了解基因表达的调控方式,必须鉴定启动子和增强子等顺式调控元件,因此他们实验室建立了第一个酵母启动子数据库SCPD (后来转移到了 Mike Cherry的YPD中)。他们还从细胞周期数据的共表达簇中鉴定出许多已知的和推断的TFBS,这项研究不仅证明了利用基因表达数据可以预测新型TFBS,同时也证明了GC含量的控制和重复序列的重要性。由于人类启动子结构的预测不同于酵母,因此Michael Q. Zhang教授还利用机器学习的方法系统研究人类启动子结构,例如开发的FirstEF(First-Exon-Finder),可以将全基因组草图作为唯一输入便可同时预测启动子和第一个外显子。该方法预测的人类启动子帮助设计了Nimbelgen寡核苷酸阵列用于ChIP芯片实验中,取得了比Affymetrix tilling array更好的效果。由于意识到后续研究会有大量表达谱数据和ChIP数据,Michael Q. Zhang教授课题组还开发了机器学习算法,用于大规模系统识别组织特异性顺式调控模式,进行调控基因组领域的研究。他们实验室开发的DWE/DME算法对所有可能的TFBS motif进行排名,开发的MARS-Motif算法则可以使所有候选motif回归针对目标基因的表达水平,以提取有活性和功能的基因。利用这种方法,他们可以从56个不同的组织转录组和基因组图谱中,显示人和小鼠近端启动子中的DNA序列,预测组织特异性表达,并构建了TCat(The Catalog of Tissue-Specific Regulatory Motifs)。
在转录与转录后调控的研究中,Michael Q. Zhang教授认为使用替代性外显子已成为组织特异性或条件特异性基因调节的主要模式。因此,他们和其他课题组合作,对替代性外显子进行了深入研究,如收集并描述了自1994年以来最早的神经元替代外显子数据库,证明MZEF(Michael Zhang Exon Finder)如何在APP(是一个著名的Alzheimer疾病基因,编码淀粉样前体蛋白)的注释中发挥重要作用,还证明了CpG岛和TFBS motif在人和小鼠序列上的保守性。Michael Q. Zhang教授还积极与其他实验室合作,在研究中发现了许多科学问题,如核内滞留是基因调控的另一个重要机制;神经元树突内的局部mRNA翻译是活化依赖型突触可塑性活性的机制;开发的MIROR可以通过细胞类型特异性microRNA占用率变化而不是差异表达水平变化来识别癌症靶标;使用合成线路可以对竞争性的内源RNA进行microRNA介导调控的定量建模;对小鼠大脑的细胞类型特异性miRNA进行了分析。自1993年以来,Michael Q. Zhang教授就把理解RNA选择性剪接作为自己的一个长期研究目标,在该领域他的实验室与其他实验室合作开发了预测外显子剪接增强子的ESEfinder,发现的“zero-size exon”或“dual-specificity splice site”为研究哺乳动物基因中有限剪接保真度的进化奠定了基础,并构建了组织特异性剪接因子Fox-1,2的调控网络。在基于贝叶斯模型来估计包含率的基础上,Michael Q. Zhang教授课题组还开发了新的替代性外显子检测算法SpliceTrap,OLego,这是一种使用small seed对剪接mRNA-Seq可以进行快速、灵敏定位的方法,它尤其适用于剪接mRNA-Seq的从头测序数据。
在表观遗传学与4D基因组学研究领域,由于在HGP项目的早期研究中,细胞特异性调控密码其实就包含了表观遗传密码。Michael Q. Zhang教授课题组是从2005年开始进行DNA甲基化分析研究。在此期间,他的课题组先后进行了人脑DNA甲基化分析;通过训练的机器学习模型对全基因组的mCpG进行了预测;通过阵列捕获和单分子亚硫酸氢盐测序对哺乳动物癌细胞的DNA甲基化进行了高清晰度的分析;报道了基于测序方法对DNA甲基化进行分析和单等位基因表观遗传修饰的鉴定;开发了FastDMA –一种Infinium人甲基化450K Beadchip analyzer,使用这种芯片,发现了SCT启动子DNA甲基化是一种新型的肺癌生物标志物;开发的BS-Seeker2 pipeline可用于亚硫酸氢盐测序或RRBS数据分析,并可用于研究人细胞中的非CpG甲基化模式。组蛋白修饰是另一类表观遗传密码,它通常不如DNA甲基化稳定,因而具有更强的基因表达调控灵活性。2006年起,Michael Q. Zhang教授课题组开始了组蛋白修饰方面的研究,研究成果包括在T细胞中系统分析组蛋白修饰模式(~40),参与了人类胚胎干细胞多系分化的表观遗传组学分析,还参与了人类组织单倍型解析表观遗传学的整合分析以及2015年NIH的Roadmap 项目中的“111种参考人类表观基因组的整合分析”。使用组蛋白修饰,可提高用于转录起始位点预测的增强算法的准确性。由于组蛋白修饰的ChIP-seq数据同时具有尖峰和宽峰的特点,Michael Q. Zhang教授课题组于2011年开发了基于精确BCP模型的新型、快速的ChIP-seq数据分析工具。而3C技术(2002年)和ChIA-PET技术(2009年)的出现,使得高级染色质拓扑调控密码的重要性得以揭示。由于ChIA-PET提供更高的分辨率和特定的TF位点,因此他们最初专注于改进数据分析模型,pipeline,通过随机过程技术(3CPET和FIND)检测co-factor复合物和远程相互作用的分化,并绘制染色质结构域边界(HiCDB)。此外,为了在单个细胞水平上验证功能性TF结合和长距离染色质相互作用,他们实验室还与很多影像专家合作,开发了新的超分辨率方法,如Tn5-FISH以及GUI可视化工具Web3DMol。为了解功能性增强子,eRNA的检测是映射增强子-启动子染色质环的一种补充方法。他们实验室通过对eRNA进行谱分析,发现了一种转录延伸增强子。随后,他们还研究了经典诱导系统中eRNA的动力学。这项研究出乎意料的发现是,增强子与其调控的启动子在短暂的功能性和物理性结合后,它们的命运大不相同。在许多单独情况,当增强子与其启动子脱离接触并且目标基因受到诱导后抑制时,eRNA的生产仍在继续。
针对上述研究领域,Michael Q. Zhang教授在本文中提出了多个层次的思考。
对于结构基因组学,需要思考的问题有:
1)什么决定了基因的数量(对于种群动态来说是“independent generators”的数量)?
2)什么决定了基因位点之间的顺序和相互距离(如“Dyson-Wigner Brownian particles”的随机进化动力学特征值间隔)?
对于功能基因组和基因调控网络研究,应该思考的问题有:
1)细胞动力学的不变性是什么(pathway会是某种“low-energy level”集体激发模式吗)?
2)可以通过限定“边界条件”,从而简化或分解从基因型到表型的因果关系吗?
对于表观遗传学和4D genomics,应该思考的问题有:
1)这些调节/中介元件的结构性特征是什么?在微环境<–表观基因组->基因组作用网络中,基因组是天然的“边界”吗?
2)我们是否可以从“干细胞”(生殖细胞)开始沿着谱系树,并在每个分支点鉴定关键的拓扑变化?例如Betti number(类似建立“门捷列夫周期表”描述电子如何在原子的外层变化一样)?
总之,系统生物学是研究层次结构中不同层次之间关系的学科,如何将分子网络连接到细胞网络再依次连接到器官网络中,是一个基本的学术问题。此外,还需要解决动力学问题以便了解因果机制。在理论层面上,什么样的数学语言才能更系统地阐述生物学问题(如范畴论)?
总结30年的生物信息学研究经历,Michael Q. Zhang教授认为生物信息学是由技术驱动的,了解新的数据生成和分析技术是绝对必要的。并且生物信息学是一个快速发展的领域,研究人员需要能够不断瞄准并击中不断变化的目标。
Michael Q. Zhang教授非常同意Wally Gilbert(哈佛大学教授,物理生物学家)教授在1991的预言 “新的研究范式正在兴起,当所有基因都被知道后(被保存在数据库中),理论研究将是生物学研究的起点”。因此,他尝试和许多物理学家沟通让他们成为生物学家,如汤超教授(中科院院士、QB创刊主编之一)、Terry Hwa教授、 Hao Li教授和Michael Lässig教授等。最后这些物理学家也开始了生物学方面研究,并取得了很大成就。
Michael Q. Zhang教授还积极参与中国基因组学、生物信息学学科领域的发展,与国内杨焕明院士、郝柏林院士、张春霆院士、李衍达院士、陈润生院士、陈竺院士、赵国屏院士、孙之荣教授、丁达夫教授、罗辽复教授、李亦学教授、张学工教授、来鲁华教授等都进行过关于生物信息学、基因组学等研究领域及学科发展的深入讨论。Michael Q. Zhang教授还不遗余力参与培养国内年轻的生物信息学研究人员。他目前是北大定量生物学中心的SAB主任,北大生物医学前沿创新中心SAB成员,中国科学院-马普学会计算生物学伙伴研究所的SAB成员,清华大学兼职教授,香港大学访问教授,还组织过清华大学生物信息暑期学校和第一届定量生物学会议。
往期精品(点击图片直达文字对应教程)
后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集