NBT:你想成为计算生物学家?
生物信息学习的正确姿势
NGS系列文章包括NGS基础、高颜值在线绘图和分析、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step))、批次效应处理等内容。
1. 理解你的目标并选择合适的工具
好的计算生物学家的关键是选择合适的工具。就像我们不能在不理解PCR的基本原理时就去实验室操作这个实验,同样地如果我们不理解软件的原理,就会不知道选择的软件是否合适、结果怎么解释。比如转录组序列比对需要选择支持Splice-map
的工具,因为mRNA成熟时经历了剪接;比对会基因组时会初选跨越内含子的reads
。理解算法不需要我们去读懂源码,但对其原理、适用性和特点要有个概念。
2. 对自己和他人的脚本设置陷阱测试
做实验需要正对照和负对照,运行脚本也是。脚本不知道我们的目的是什么,只要提供的数据格式正确,就可以运行不报错。但结果是否正确需要我们自己把关。通常是手写数个小的结果已知的数据集
进行测试,涵盖自己能想到的尽可能多的情况,已确定脚本做的事情跟自己预期一致。
3. 记住自己是科学家不是程序员
完美是完成的敌人。牢记自己是科学家,研究的质量优先级高于代码的优雅。在确保核心算法无误的基础上,多关注生物问题,有时间再去完善代码和文档。
4. 使用版本控制工具
采用GitHub等记录脚本、文档的修改,维持多个版本和协作代码。写好README文件记录开发历程,何时因何故对代码作此修改,以备后续用到时再回想起来当初的设计。发表文章的同时发表脚本和数据,以便他人复现。也可以发表到这个Nature推荐的代码海洋竟然有文章作者上传的所有可重现性脚本,涉及单细胞、微生物组、转录组分析、机器学习等相关。
5. 凡事流程化不可取 (不过早包装)
Pipeline是一系列脚本的集合,可以更方便结果的重现和类似分析工作的快速完成。但你需要衡量形成Pipeline是否节省了时间、是否有必要。三思而后行。大家如果熟悉Makefile
,倒也无妨,不外乎是把Linux命令放到Makefile
中运行。
6. 要拥有奥巴马般的自信
Yes you can! 不畏惧,用于尝试和探索,修改现有代码满足自己的需求。写代码其实就是怎么想的怎么写,写出来前几句,路就顺了。爱冒险,也接受会遇到坑,借助谷歌、讨论群,大踏步迈过去。
参加好的培训班是有意义的,可以节省很多时间,快速走上正确的道路。但切记,培训班只是开始,需要不断的练习。学习没有捷径,但可以借力加速。
7. 要有怀疑精神和质疑气魄
生物数据集尤其是来源于高通量测序的数据,庞大而有噪音干扰。即便是受过统计训练的生物学家在看到软件或流程输出的符合预期的结果时也会把怀疑置之脑后。通常需要多个不同角度的结果辅助一个结论。生物知识对解释实验结果至关重要,生物实验验证也是必须的。
8. 命令行下工作和编码
习惯在Unix/Linux命令行下工作,你会发现它们真的很强大。编程语言无优劣,选择在你身边最流行的,有问题可以交流。EXCEL会改变你的数据。
9. 做一个数据侦探
计算生物学家很长时间都在分析和解释数据。数据里面包含0个或多个故事,但通常不太明显。需要我们从实验设计和分析过程来综合解析。勇于识别和排除数据中的系统偏差和异常点。与项目中的其它科学家通力合作,讨论结果,提出后续实验验证假设。也有可能你的数据什么都发现不了,果断放弃。
10. 不重复造轮子
通常无论多么奇怪的问题都有可能在网上搜索到解决方案,善用搜索引擎、论坛和社交工具。加入或成立本地的交流圈是很好的互相促进的开始。(自己衡量造轮子和搜索轮子哪个时间更划算)
Mick Watson is at The Roslin Institute, University of Edinburgh, Edinburgh, UK, and is Head of Bioinformatics at Edinburgh Genomics, an academic genomics facility developing bioinformatics training in next-generation sequence analysis (http://genomics.ed.ac.uk). Follow him on Twitter, @BioMickWatson, and on his blog at http://biomickwatson.wordpress.com/.
Nick Loman works as an independent research fellow in the Institute for Microbiology and Infection at the University of Birmingham, Birmingham, UK, sponsored by a Medical Research Council Special Training Fellowship in Biomedical Informatics. Follow him on Twitter, @pathogenomenick, and on his blog at http://pathogenomics.bham.ac.uk/blog.
https://www.nature.com/articles/nbt.2740
往期精品(点击图片直达文字对应教程)
后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集
(请备注姓名-学校/企业-职务等)