微生物组-扩增子16S分析和可视化(2024.10)

生信宝典

共 6201字,需浏览 13分钟

 ·

2024-06-20 10:30


细菌/病毒基因组马上上线!


福利公告为了响应学员的学习需求,经过易生信培训团队的讨论筹备,现决定安排扩增子16S分析宏基因组转录组的线上/线下同时开课。报名参加线上直播课的老师可在1年内选择参加同课程的一次线下课 。期待和大家的线上线下会晤。

目前可以通报的信息:

    • 转录组线上/线下开课时间:2024/09/20-2024/09/22

    • 临床基因组学线上/线下开课时间:2023/11/17-2023/11/19

    • 宏基因组线上/线下开课时间2024/5/17-2024/5/19;2024年11月15-17

    • 扩增子线上/线下开课时间:2024/10/18-2024/10/20

    • 报名链接:http://www.ehbio.com/Training/


在广大粉丝的期待下,《生信宝典》联合《宏基因组》在北京于2024-10-18到 2024-10-20推出《扩增子16S分析》专题培训第23期(线上课和线下课程同步开通,为大家提供一条走进生信大门的捷径、为同行提供一个扩增子分析实战学习和交流的机会、助力学员真正理解分析原理和完成实战分析,独创五段式教学(3天集中授课+自行练习2周+微信群问题答疑+上课视频回看反复练习+后续线上课免费参加),“教—练—答—用”四个环节统一协调,真正实现独立分析大数据


关于学习生物信息学分析的重要性,请阅读《生物信息9天速成班—成为团队中不可或缺的人》

课程简介

宏基因组/微生物组是当今世界科研最热门的研究领域之一,为加强本领域的技术交流与传播,推动中国微生物组计划发展,中科院青年科研人员创立“宏基因组”公众号,目标为打造本领域纯干货技术及思想交流平台。成立两年,分享专业技术原创文章3000+篇,关注人数13万+,累计阅读量31,000,000+。

请详细阅读课程简介,如果以下内容您全精通,不必参加此培训。

本课程一共3天,每天6节课,共18节课,全部课程均理论与实战结合(只要课上讲的内容,都是要带你亲自实现的分析)。从分析平台搭建、Linux和R基础、图表解读和绘图实战、扩增子分析标准流程、功能预测、差异统计分析以及各类高级分析(进化树、网络、环境因子、随机森林、Adaboost和来源追溯等),和CNS级图片编辑和排版。3天时间,老司机带您完成自学需要3个月甚至是3年的崎岖之路,助力您真正玩转扩增子分析。

课程大纲

每节课1小时一个主题,理论结合实战,学懂原理,实战操作,全是老司机多年经验和代码的无私分享。下面是课程安排,如11代表第一天第一节课,26代表第二天第六节课,41为两周后的线上集中视频答疑。


编号 主题 简介
01 分析平台搭建 Win10:git、R、Rstudio、R包、STAMPAI等 (开课前 1 天晚上)
02 Linux基础 简介、优势、常用操作、序列处理、软件安装等 (视频课)
03 R基础 发展史、生物学中应用ggplot2绘图模板 (视频课)
11
扩增子基本流程
基本理论、流程介绍和测试
12 结果可视化 16种图表的解读、数据整理和在线绘制
16 发表级图版制作 Adobe Illustrator制作CNS标准图版 (视频课)
21 扩增子介绍 背景知识、分析原理、科学问题
22 扩增子分析流程 vsearch+usearch跨平台分析流程
23 STAMP统计分析 玩转样本筛选、差异比较和统计图表保存
24 多样性分析 R语言实现多样性、物种组成和差异比较图表
25 QIIME2 Linux平台QIIME2私人定制流程
26 网络分析 文章解读,实战网络绘制和属性比较 (视频课)
31 PICRUSt功能预测 KEEG功能组成预测和统计绘图
32 Faprotax,Bugbase 细菌元素循环表型层面功能挖掘
33 机器学习 随机森林分类回归,重现两篇Nature分析、来源追溯
34 进化分析 序列筛选、比对、进化树构建和美化
35 环境因子 文章解读,高分文章重现 (视频课)
36 研究热点展望 总结、把握研究热点、展望技术发展趋势
37 考试50题 自评学习效果、知识点回顾
41 答疑 答疑、考试内容串讲

教程内容简介如下:

一、生信基础知识和技巧

还在为没有Linux服务器而无法分析扩增子数据而苦恼吗?其实你的个人电脑就是扩增子分析的利器。易生信团队独创实现了跨平台的分析流程,在大家的Windows笔记本上可以轻松实现扩增子领域的绝大多数分析,第一节课带你轻松在自己的本本上搭建数据分析平台。

图1. 易生信首创基于Win10优化的扩增子分析流程,笔记本秒变大数据分析平台

推荐使用Windows10系统,8G及以上内存分析更流畅。 我们也会分享给大家在Linux上配置整个分析流程的代码 (Mac跟Linux类似,无须区别对待,但部分软件可能安装方式不同,未做深入测试,不建议参加培训时使用)。

同时讲解生物学家必要掌握的ShellR语言基础知识,保证你高效、稳定的使用扩增子分析平台。

图2. Shell和R学习大纲,首创Rstuio中鼠标点击可完成Shell脚本和R语言分析,既打开生信的大门,又不会增加生物学家时间成本

二、图表解读和绘制

针对很多老师缺少系统的生信背景,看不懂分析文章图表,更对绘制各式图表手足无措。

我们推出过如下两个系列,共16篇原创文章,对8种图形进行讲解和R语言绘图。

但这些只是入门,在培训上,我们将结合发表高水平文章,进一步讲解16种常用分析图型结果的原理和使用范围,让您不仅读懂图,更知道如何应用于自己的研究,并亲自轻松完成绘图。

针对大家使用R语言绘图学习时间成本较高的问题,易生团队针对常用16种图开发了免费绘图网站,一键出图,更可鼠标点选参数修改图形的个性样式。

图3. 16种常用图形的绘制。可使用我们的在线绘图工具 实现。

为了让各种统计图片实现出版级的组图,特开设了一节Adobe Illustrator修图排版课,讲述基本使用技巧,轻松掌握精髓,让你文章图版档次向CNS看齐,轻松成为实验室的修图和拼图达人。

图4. AI排版本子图为CNS出版级组图示例(Science, 2016封面文章)

三、扩增子基础和分析流程

图5. 典型的扩增子结构模型图

  • 扩增子背景知识

  1. 背景:国际微生物组(人类HMP、环境EMP)计划、中国微生物组计划

  2. 研究对象:人、动物、植物、环境

  3. 研究方法:培养组学、扩增子测序 (最常用)、宏基因组、宏转录组、宏蛋白组、宏代谢组、宏表观组等

  4. 宏基因组学的研究热点:微生物多样性、宏基因组、培养组、肠菌与疾病、MWAS

  5. 扩增子基本原理:细菌/古菌 16S、真菌18S/ITS结构、引物选择等

  6. 实验设计:样品制备和建库中的误区

  7. 文章套路:扩增子分析SCI文章的物种组成、功能预测常用套路

  8. 主流方法优缺点比较:QIIME、QIIME2、mothur、Usearch-unois3、dada2等方法

  • 扩增子分析流程

之前我们发布了基于QIIME(引用24000+)+USEARCH(引用14000+)组合的史上最详细中文扩增子分析流程,累计阅读10000+。

同时在2017年推出了2018年正式接档QIIME的最新流程QIIME2的官方中文帮助文档,累计阅读10万+。

想使用QIIME和QIIME2的小伙伴可直接点击上方链接学习。课上也会带大家用服务器操作,分享最新私人定制流程。

但上面两种分析流程仍有很多缺点,如需要Linux服务器,安装和操作复杂,学习时间成本过高等不足。

易生信团队组织宏基因组、生信宝典的一线生信专家,为广大生物学家,定制了一套安装部署简单、鼠标点击编程、支持主流操作系统、学习成本低、又灵活的扩增子分析流程,助力生物学家轻松分析数据,更专注生物学现象的挖掘。

图6. 扩增子分析流程金字塔,数据量从下向上逐渐减少

  • 扩增子流程如下:

  1. 实验设计的编写

  2. Illumina测序数据的质控:fastqc, mulitqc

  3. 质控流程:双端序列合并、切除barcode和引物、质控

  4. 生成OTU/ASV:序列去冗余、聚类clust_otu生成OTU或unoise3去噪生成ASV(Amplicon Sequence Variants)

  5. OTU筛选:嵌合体生成原理及去除方法、去除线粒体、叶绿体和宿主非特异扩增污染、生成代表性序列和OTU表

  6. 物种注释及进化树构建

  7. 常用Alpha多样性指数计算

  8. 常用Beta多样性距离矩阵计算

现在你可以在自己笔记本或台式机上轻松分析扩增子啦!并且支持最新的去噪生成ASV方法,想自己亲自分析的朋友,快来北京参加扩增子专题培训班吧!

图7. 常用宏基因组统计作图软件STAMP & LEfSe

引用过千次的STAMP绘制Extended barplot大家应该很常见,带你半小时速成。LEfSe引用超4000+次,它的柱状图和圈图随处可见,但服务器超级难用,即上传痛苦,又要久等。我们为学员定制了国内专享服务器,随时为你服务。有服务器的伙伴还可以获得安装和使用的教程,在自己的服务器上可重复计算,不受网络和地域限制自己随时随地使用。

四、可重复计算和统计绘图

对于可重复计算要求比较高、对细节有进一步分析要求的学员,我们还会教大家当前最顶级的R语言统计分析框架,让你零基础轻松实现可重复计算,满足顶级文章的代码公开和网页可重复要求(这些资源在生信公司是价格几十万的绝密流程代码,一般人是没有机会见到的)。

图8. 数10种高质量图的R源代码实现可重复计算

在自己电脑上轻松修改输入文件、参数。可全程记录分析过程,保证从数据到发表级图形的可重复计算,让团队分析水平上升到大牛级别。

  1. Alpha多样性各种指数:Shannon、Chao1、Observed OTU、PD whole tree等,并配合Anova,LSD统计;

  2. Beta多样性各种距离矩阵:Bray Curtis、Jaccard、Weighted Unifrac、Unweighted Unifrac等结果的树状图、箱线图、散点图展示样品间差异;并配合Adonis, Anosim, MRPP统计

  3. 有监督的主坐标轴分析 (CCA/RDA),展示组间差异,anova.cca统计

  4. DESeq/edgeR/t.test/wilcoxon统计组间差异,计算Pvalue和FDR

  5. 热图、曼哈顿图、火山图展示两组间比较差异分类单元、OTU/ASV

  6. 韦恩图、三元图、网络图展示两组及多组间相同与不同

五、功能预测和机器学习

学习PICRUSt分析原理、常用结果展示样式及文章解读。实战进行官网、本地、在线分析,并对结果进行整理,方便STAMP、LEfSe以及R分析。下图为预测结果经STAMP快速分析的结果展示,学员可以在老师带领下35分钟内完成以上分析。

图9. 功能预测结果使用STAMP统计和可视化

对于不满足用KEGG功能预测和统计结果的小伙伴,我们还进一步讲解FAPROTAX (2016, Science)的分析,适合研究环境、元素循环的同行;此外还有BUGBASE分析,实现细菌代谢、厌氧性、革兰氏分类等表型预测,适合医学领域的同行使用。

图10. 重现两篇Nature文章机器学习分类和回归分析

上图:Wilck-2017-Nature,采用Adaboost进行分类和测试集验证准确率。
下图:Subramanian-2014-Nature,采用随机森进行回归、交叉验证、测试集检验模型准确率和热图展示特征OTUs时间序列变化。
高分文章离我们并不是遥不可及,在你的本本上,1个小时轻松重现每一个子图的分析和绘制。读懂这两类分析的结果。

六、网络和环境因子分析

图11. 两组网络比较、以及网络属性比较(Wang-2018-Gut)

还以为随便画个网络就能当文章的主图吗?这个时代早已成为历史。现在的高分文章,至少要求多网络比较,标配网络属性比较。在这里有微生物所微生物网络研究方向的博士,带你进入网络的世界,四步走实现即美观又有意义的网络分析:读懂网络——绘制单个网络——绘制多个网络——网络属性比较及可视化。这么前沿的技术,估计世界范围内只有这里会教你。


图12. 环境因子分析(Metcalf-2016-Science)

环境因子分析是很多研究的标配,常用的Vegan包引用过万次就知道它的重要性。但平时看到的图不是低分文章,就是不够美观。易生信团队精选Rob Knight团队2016年Science杂志中经典环境因子分析为例,让你的分析和可视化一步到位,向CNS看齐。



访问 http://www.ehbio.com/Training/ 或点击阅读原文跳转报名页

浏览 6
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报