送书《R语言数据分析和可视化》 | 这个为生信学习和生信作图打造的开源R教程真香!!!
共 4128字,需浏览 9分钟
·
2020-10-18 19:22
生物信息学习的正确姿势
NGS系列文章包括NGS基础、在线绘图、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step))、批次效应处理等内容。
点击阅读原文跳转完整教案。
1 思考题
2 R基础
2.1 R安装
2.2 Rstudio基础
2.2.1 Rstudio版本
2.2.2 Rstudio安装
2.2.3 Rstudio 使用
2.3 R基本语法
2.3.1 获取帮助文档,查看命令或函数的使用方法、事例或适用范围
2.3.2 R中的变量及其初始化
2.3.3 变量类型和转换
2.3.4 R中矩阵运算
2.3.5 R中矩阵筛选合并
2.3.6
str
的应用2.3.7 R的包管理
2.4 ggplot2绘图
2.4.1 数据格式转换和字符串处理
2.4.2 配色
2.4.3 pheatmap绘制热图
3 R plots
3.1 qplot绘制图形 (王绪宁)
3.2 热图绘制
3.2.1 生成测试数据
3.2.2 转换数据格式
3.2.3 分解绘图
3.2.4 图形存储
3.3 热图美化
3.3.1 对数转换
3.3.2 Z-score转换
3.3.3 抹去异常值
3.3.4 非线性颜色
3.3.5 调整行或列的顺序
3.4 热图绘制 - pheatmap
3.5 聚类热图如何按自己的意愿调整分支顺序?
3.5.1 数据示例
3.5.2 绘制一个聚类热图很简单
3.5.3 如何自定义分支顺序呢
3.5.4 人为指定顺序排序样品
3.5.5 按某个基因的表达由小到大排序
3.5.6 按某个基因的表达由大到小排序
3.5.7 按分支名字(样品名字)的字母顺序排序
3.5.8 梯子形排序:最小的分支在右侧
3.5.9 梯子形排序:最小的分支在左侧
3.5.10 按特征值排序
3.6 箱线图
3.6.1 一步步解析箱线图绘制
3.6.2 绘制单个基因 (A)的箱线图
3.6.3 长矩阵绘制箱线图
3.7 线图
3.7.1 单线图
3.7.2 多线图
3.7.3 横轴文本线图
3.8 散点图
3.8.1 横纵轴都为数字的散点图解析
3.8.2 横纵轴都为字符串的散点图展示
3.9 功能富集泡泡图
3.9.1 单样品分开绘制
3.9.2 多样品合并绘制
3.10 韦恩图
3.10.1 韦恩图三个圈
3.10.2 韦恩图五个圈
3.10.3 UpSetView展示
3.11 柱状图绘制
3.11.1 常规矩阵柱状图绘制
3.11.2 长矩阵分面绘制
3.12 图形支持中文字体
3.12.1 修改图形的字体
3.12.2 ggplot2支持中文字体输出PDF
3.12.3 系统可用字体
3.12.4 合并字体支持中英文
3.12.5 一个示例
3.13 PCA原理解析和图形绘制
3.13.1 主成分分析简介
3.13.2 主成分分析的意义
3.13.3 示例展示原始变量对样品的分类
3.13.4 PCA的实现原理
3.13.5 简单的PCA实现
3.13.6 PCA结果解释
3.13.7 PCA应用于测试数据
3.13.8 PCA注意事项
3.13.9 参考资料
3.14 生存分析
3.14.1 R做生存分析
3.15 一步作图的优势
3.16 不改脚本的热图绘制
3.16.1 箱线图 - 一步绘制
3.16.2 线图 - 一步绘制
3.16.3 一网打进散点图绘制
4 网络图
4.0.4 基本操作
4.0.5 miRNA-mRNA调控网络
4.0.6 不同的布局的调试和修改
5 图形排版
6 高通量数据中批次效应的鉴定和处理
6.1 什么是批次效应?
6.2 批次效应会有什么影响?
6.3 怎么确认数据有无受到批次效应影响
6.4 怎么避免批次效应呢?
6.5 如何在差异基因鉴定过程中移除批次效应
6.5.1 不考虑批次因素直接进行差异基因分析
6.5.2 考虑已知的批次因素进行差异基因分析
6.5.3 比较批次校正前后差异基因变化
6.6 批次效应未知时如何判断和在差异基因鉴定过程中移除批次效应
6.6.1 预测混杂因素(cofounding factors)并在差异基因分析中移除这些因素
6.6.2 预测可能存在的混杂因素
6.6.3 比较批次校正前、已知批次校正后和预测的批次校正后差异基因变化
6.6.4 直接校正表达矩阵
6.6.5 ComBat_seq直接校正Count matrix
6.6.6 怎么从FASTQ数据中获得测序设备和批次相关信息
6.6.7 如何合并人的表达数据和小鼠的表达数据?
6.6.8 质控中的GC含量和Overrepresented sequences
6.6.9 样品是否在某种属性中存在偏好性
6.6.10 为什么聚类结果不可靠
6.6.11 sampleFile文件的生成
7 易生信-数据可视化
7.1 加载需要的包
7.2 读入数据
7.2.1 Duplicate row names
7.2.2 行名唯一化处理
7.3 热图绘制
7.3.1 提取差异基因绘制热图
7.4 箱线图和统计比较
7.4.1 单基因箱线图
7.4.2 多基因箱线图 (combine)
7.4.3 多基因箱线图 (merge)
7.4.4 数据对数转换后绘制箱线图
7.4.5 用ggplot2实现ggpubr
7.4.6 配色
7.4.7 箱线图加统计分析
7.5 通路内基因的比较
7.5.1 密度图
7.6 ggstatsplot绘图和统计分析
7.6.1 散点图
7.6.2 相关性图
8 高颜值免费在线绘图(提供绘图源码)
8.1 高颜值免费在线绘图基础版视频
8.2 高颜值免费在线绘图进阶版视频
9 参考
http://www.ehbio.com/Bioinfo_R_course/
往期精品(点击图片直达文字对应教程)
后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集
送书
在上次的留言送书活动中,恭喜下面这位读者获得书籍《Python人工智能开发从入门到精通》,请及时与生信宝典编辑(shengxinbaodian)联系,联系时提供转发朋友圈的截图。
高级教程和生信基础知识在生信宝典往期推文中都有,赠送的书籍可以作为一类延伸阅读扩展知识面。
留言得赞前三者中选取最有缘者获得下面由北京大学出版社赞助的书籍(联系小编时请附上分享截图),结果在下一期送书活动中公布:
1. 理论为辅、实践为主。本书涉及一些必要的理论知识,特别是在数据分析部分,但总体以实践为主,因此几乎每节都有大量的代码,方便读者实践。
2. 知识全面、系统。本书在介绍了R语言的基础知识后,从数据获取和导出、数据清理和操作、数据分析和可视化方面分别进行了探讨,内容由浅入深、循序渐进。
3. 案例广泛。本书中的案例涉及心理学、社会学、医学、商业和经济等领域,但并不需要读者具备这些领域的专业知识。
4. “新手问答”和“小试牛刀”知识模块。“新手问答”主要对读者学习过程中易出现的疑问或容易犯的错误进行针对性的解答;“小试牛刀”结合每章知识及相关技能,列举综合上机案例,让读者在学完一章内容后能及时回顾和练习,旨在让读者巩固知识、学以致用。