高通量数据中批次效应的鉴定和处理(三)- 如何设计尽量避免批次影响

生信宝典

共 1709字,需浏览 4分钟

 ·

2020-07-31 15:38


生物信息学习的正确姿势

NGS系列文章包括NGS基础、转录组分析 Nature重磅综述|关于RNA-seq你想知道的全在这、ChIP-seq分析 ChIP-seq基本分析流程、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程 (原理、代码和评述))、DNA甲基化分析、重测序分析、GEO数据挖掘典型医学设计实验GEO数据分析 (step-by-step) - Limma差异分析、火山图、功能富集等内容


高通量数据中批次效应的鉴定和处理(一)讲述了什么是批次效应和其影响。

高通量数据中批次效应的鉴定和处理(二)讲述了如何查看是否有批次效应影响。


下面呢?就是......

怎么避免批次效应呢?

合理的实验设计和一致的实验操作是避免批次效应的最好方式。如下图所示如何通过合理的设计来避免检测批次带来的影响。

  1. 如左上角图示,若样本量数目不多,可在同一台设备(同一个芯片、同一个测序仪、同一个测序 lane)检测这是最好的方式,不存在检测批次。

  2. 如右上角图示,是最差的实验设计方式,不同组的样本分批检测。

    这种方式无法确定最终检测出的样品差异是生物差异还是设备差异还是二者共同带来的差异。

    这种检测方式会放大样品的差异,引入较多假阳性结果。

    如果只是看这种图,相信大家其实都不会这么设计。

    但换个角度来看,我们 5 月份采一批样去测序,10 月份采一批样去测序,在比较 5 月份样品与 10 月份样品差异时,我们实际的实验设计方式跟这个实验设计也没什么不同。

    或者做病例对照时,健康人样品好收集,一起测序;

    疾病样品一起搜集一起测序,也是类似的设计方式。

    前文所述的一段公案也类似这个设计。

  3. 如左下角所示,平衡设计则是最好的实验设计方式。

    假如实验中存在三个样品组,如对照组基因敲除组基因过表达组,每组 9 个重复,则每次检测时都同时包含每组的 3 个重复,这样获得的数据则可以放在一起校正后分析。

    或者至少对照组的样本在每次测序中都能有 2-3 个重复,最后在数据校正时通过调平对照组数据的检测结果来校正其它样品的检测结果。

    前文的留言中,也确实有意识比较好的老师,做了类似设计,值得学习。

  4. 如右下角所示,也是芯片检测基因表达的一个常规方式,每个芯片检测一个样本。

    不论是生物重复还是不同生物条件之间都会受到检测芯片的影响,不同重复之间的批次影响可以评估,但不同条件下的批次影响则难以评估。

    芯片这么检测是可以的,但测序时每个测序批次会包含很多不同类型的样品,且测序检测影响因素更多,这一设计会引入较大技术偏差。


上面也只是从检测方式的角度设计出一个合理的试验模式降低批次效应的影响,但除了检测方式,还会有很多不可控的因素也会影响到批次,如不同操作人、不同操作时间等客观因素,还有如配对设计实验中不同的个体自身也是批次的因素。

所以需要有个方式去检测和尽量降低批次效应带来的数据偏差的影响。

好多朋友着急代码,马上就有了......

往期精品(点击图片直达文字对应教程)


后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集


浏览 17
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报