基因组学中的深度学习
生信宝典
共 9407字,需浏览 19分钟
· 2021-03-15
这一篇文章的主题是深度学习在基因组学中的应用情况的。文章较长,读完要花些时间,不过我的建议是通读第一部分——关于如何进行模型训练的内容,读完后你应该可以理解机器学习模型的训练过程和逻辑,剩下的部分可以挑重点的看。
第一,介绍有监督学习中四个主要的神经网络,分别是:全连接网络、深度卷积、循环卷积和图卷积,同时解释了如何将它们用来抽取基因组数据中常见的 Pattern; 第二,介绍多任务学习和多模态学习,这是两种适合于集成多维数据集的建模方法; 第三,讨论迁移学习,这是一种可以从现有模型中开发新模型的技术。这个方法对于多组学的研究和应用来说有着实际的价值; 第四,讨论自动编码器(Autoencoder, AE)和生成对抗网络(generative adversarial networks,GANs)这两个非监督学习方法。
另外,图1 其实是一个由逻辑回归组成的单层神经网络分类模型。
反向传播算法是神经网络模型的基础,没有这个算法就无法高效地实现梯度下降算法中梯度值的计算。
第一,模型训练所需的内存将比较恒定。因为不必将大量的数据一次性加载到内存里,因此,模型能不受计算机的内存所限,可以使用尽可能大的训练集数据,训练过程的可拓展性比较高; 第二,在机器学习领域其实已经证明,这种小批量数据集的方法会给模型带来一定程度的随机波动,而这种波动有利于模型性能的提升。
调超参一直都是机器学习模型训练的一个难点。
全连接网络层
深度卷积神经网络
循环卷积神经网络
图卷积神经网络
深度学习模型的可解释性问题
小结
第一,协助对非编码区变异的功能进行预测,这是目前传统方法做得比较差的一个方面; 第二,深度学习是一种完全由数据驱动的方法,它会进一步革新当前的生物信息学工具,我可以将它称为新生信,这个也是目前最热的,除了文章中所提到的新算法之外,变异检测算法DeepVariants和Clair也属于这一方面; 第三,高效揭示多组学中高维数据的更多结构。
除此之外,对于未来还有一个非常重要的领域,那就是因果推断。不管是传统的机器学习方法,或是现在的深度学习方法,都很难用于预测数据之间的因果联系,而因果关系对于生命科学研究来说十分重要,目前虽有过一些尝试——比如孟德尔随机,但其实都比较初步。总的来说,这是一个很值得我们去进一步探索的地方,可以从零开始,而这也是我们的机会!
最后还有一句话:不要迷信模型。模型是解决问题的工具,用好工具是我们的追求,但问题的解决应以人为本。
参考文献
Deep learning- new computational modelling techniques for genomics
What I cannot create, I do not understand. - Richard P.Feynman(理查德.菲利普斯.费曼)
----/ END /----
※ ※ ※
机器学习系列教程
从随机森林开始,一步步理解决策树、随机森林、ROC/AUC、数据集、交叉验证的概念和实践。
文字能说清的用文字、图片能展示的用、描述不清的用公式、公式还不清楚的写个简单代码,一步步理清各个环节和概念。
再到成熟代码应用、模型调参、模型比较、模型评估,学习整个机器学习需要用到的知识和技能。
评论
金融研究 | 使用Python测量关键审计事项的「信息含量」
Tips: 公众号推送后内容只能更改一次,且只能改20字符。如果内容出问题,或者想更新内容, 只能重复推送。为了更好的阅读体验,建议阅读本文博客版, 链接地址https://textdata.cn/blog/2023-01-13-information-content-of-critical-aud
大邓和他的Python
0
我看阿里的年终奖总算发了!
到4月底了,这两天看朋友圈,发现阿里的年终奖终于发了,问了问老同学,也从网上检索了不少信息,基本搞清楚了阿里今年的年终奖情况。近来来阿里一些集团对绩效等级做了较大的调整,以前的旧绩效系统中,绩效分为3.25、3.5、3.75、4和5五个等级,其中4和5是较高绩效等级,较少见。而且之前3.5绩效内部划
公子龙
0
CVPR 2024|大视觉模型的开山之作!无需任何语言数据即可打造大视觉模型
↑ 点击蓝字 关注极市平台作者丨科技猛兽编辑丨极市平台极市导读 本文提出一种序列建模 (sequential modeling) 的方法,不使用任何语言数据,训练大视觉模型。>>加入极市CV技术交流群,走在计算机视觉的最前沿本文目录1 序列建模打造大视觉模型(来自 U
极市平台
1
金融研究(更新) | 使用Python构建关键审计事项的「信息含量」
Tips: 公众号推送后内容只能更改一次,且只能改20字符。如果内容出问题,或者想更新内容, 只能重复推送。为了更好的阅读体验,建议阅读本文博客版, 链接地址https://textdata.cn/blog/2023-01-13-information-content-of-critical-aud
大邓和他的Python
0
盘点Lombok的几个骚操作,你绝对没用过!
👉 欢迎加入小哈的星球 ,你将获得: 专属的项目实战 / Java 学习路线 / 一对一提问 / 学习打卡 / 赠书福利全栈前后端分离博客项目 2.0 版本完结啦, 演示链接:http://116.62.199.48/ ,新项目正在酝酿中
小哈学Java
0
堪称最优秀的Docker可视化管理工具——Portainer你真的会用吗?
来源:blog.csdn.net/shark_chili3007/article/details/123366179👉 欢迎加入小哈的星球 ,你将获得: 专属的项目实战 / Java 学习路线 / 一对一提问 / 学习打卡 / 赠书福利全栈前后端分离博客项目
小哈学Java
0
Apache Paimon毕业,湖仓架构的未来发展趋势!
北京时间 2024 年 4 月 16日,开源软件基金会 Apache Software Foundation(以下简称 ASF)正式宣布 Apache Paimon 毕业成为 Apache 顶级项目(TLP, Top Level Project)。经过社区的共同努力和持续创新,Apache Paim
程序源代码
0
JS的这些新特性,你都用过么?
大厂技术 高级前端 Node进阶点击上方 程序员成长指北,关注公众号回复1,加入高级Node交流群作为一门不断演进的语言,JavaScript每年都会引入新特性。这些特性的加入,能够帮助我们编写更加简洁、高效、易于维护的代码。然而,并非所有新特性
程序员成长指北
1