方差分析的几个统计学问题
大家好,我是陈锐。
今天分享内容来源:52stata博客、量化研究方法整理,内容仅供参考学习分享。
正态性检验
正态性检验是统计学分析中非常基础的一个问题,但也很关键,它牵扯到你应该使用什么样的方法,数据是否满足正态性决定了你是否应采用参数方法还是非参数方法。所谓正态性检验,也就是看你的数据是不是满足正态分布,也就是说,如果把你的数据做个频数图,是不是看起来像个钟形。
正态性检验最简单的就是直接画频数图,看形状是不是类似于对称的钟形形状,如果有明显的数据都集中在某一边,那图形看起来就会偏向一侧,这可能意味着你的数据不满足正态性,可以考虑用非参数方法来分析。
正态性检验常用的有四种方法,即Shapiro-Wilk检验、Kolmogorov-Smirnov检验、Cramer-von Mises检验和Anderson-Darling检验。这是SAS软件中输出的四种检验。
Shapiro-Wilk检验是专门用于正态性检验的方法,其思想是基于峰度和偏度来考虑偏离正态的程度,该法可用于例数在3至50之间。但后来经Royston改进后,可用于例数在3至2000之间的正态性检验。因此,有的统计书上还在强调说SAS中的Shapiro-Wilk检验只能用于50例以下的数据,实际上是不对的,作者没有仔细看一下方法的进展。SAS中输出的Shapiro-Wilk检验是可以用在2000例以内数据的检验的。
其余三种方法是通用方法,可用于多种分布的拟合优度检验,正态性检验只是其中之一。其思想都是基于理论分布函数与实际分布函数的差距,当假定理论分布函数是正态分布时,便是正态性检验。当假定理论分布为其它分布(如Poisson分布)时,便成了其它分布的拟合优度检验。
所以说,Shapiro-Wilk检验是专门检验正态分布的,其它三种方法是顺便检验的。就像诺基亚是专做手机的,而联想只是业余做手机的,也做其它的,手机只是其中之一。
正常情况下,如果例数在2000以内,Shapiro-Wilk检验可作为首选的结果,该法具有较好的检验效能。
对于图形验证和方法检验,个人倾向于图形方法,因为方法的检验过于敏感,略微偏离正态便会给出阳性结果,认为数据不满足正态分布。而实际中数据的轻度偏离不会对结果造成多大影响,尤其样本量较大的时候,仍然可以采用参数检验,其结果是稳健的。因此,如有可能,可以既作检验,也绘制图形,两者结合来判断,不一定非要以检验的结果为准。
方差分析两两比较方法的选择
进行方差分析时,如果多组间比较认为总的有统计学差异,通常还可进一步做组间多重比较。
多重比较的方法比较多,这里主要介绍sas软件中常用的方法,主要有Tukey法、Scheffe法、Bonferroni法、Dunnett法等。
Tukey法:只能用于组间例数相同的情形,而且只能用于成对的两两比较。
Scheffe法:可用于组间例数不等的情形,不仅可用于成对的两两比较,而且还可以用于综合比较,如组2、3的均值与组1进行比较。
Bonferroni:用途最广,几乎可用于任何多重比较的情形,包括组间例数相等或不等、成对两两比较或综合多重比较等。
Dunnett法:主要用于多个实验组与一个对照组的比较,实验组之间不做比较。
如果各组间例数相等,Tukey法效率较高,这也是国外不少统计学家喜欢用的方法。但在国内tukey法始终不流行,甚至很少有人知道他的名字,不知道为什么。国内最流行的方法是Bonferroni法,我想可能是因为这一方法理解和计算最简单吧。但不管怎样,该法应用也没什么大错,只要比较次数不多,用起来还是蛮有用的。
如果比较次数太多,比如10次甚至更多,用Bonferroni法就有问题了,临界p值会变得特别小,你可能会发现总的组间有差异,但两两比较却都达不到临界值,因为比较次数太多,导致p值太小,无法拒绝h0。所以此时可以考虑用Scheffe法。Scheffe法在国内也不流行,同样不知道为什么。也行是因为教材上不大介绍吧,可见国内学生深受教材毒害之深。好像教材上介绍的才是权威,其实不然,教材上介绍的不一定是最好的,而是最不容易犯错误的,也就是说,不求有功,但求无过。
不同书中对如何选择比较方法各有观点,因为确实没有一种方法能完全压倒所有的,所以必然存在争议。所以最好的做法就是自己仔细看一下这些方法的原理,这样在选择时就有底了,也就有依据了。
方差齐性检验
方差齐性检验与正态性检验一样,也是决定你采用何种统计分析方法的一个重要条件。
当两组数据做组间比较时,如果两组数据符合正态分布但方差不齐,可以考虑用Cochran近似t检验或Satterthwaite近似t检验,这两种近似t检验分别通过对临界值或自由度的调整实现对t检验结果的校正。
当多组数据做组间比较时,如果数据为正态分布但方差不齐,有时也采用Welch检验。但通常情况下,即使方差不齐,只要不是很严重,仍可采用方差分析。只有在方差齐性偏离较大时才用该法或用非参数检验。
两组比较时,方差齐性检验常采用F检验,其思想是以两组中较大的方差除以较小的方差,其值越大,越有理由认为方差不齐。
多组比较时,常用的有四种方差齐性检验,分别为Bartlett检验、Levene检验、BF检验和O’Brien’s检验。
Bartlett法:主要用于正态数据的检验,一旦数据偏离正态,结果会导致较大偏差。
Levene法:可用于非正态数据的检验,反映了对均值的偏离程度。
O’Brien’s法:是对Levene法的修正方法,也是基于对均值的偏离程度。
BF法:是基于对中位数的偏离程度。
统计模拟显示,BF法对控制一类错误的效能较高,但组别较多时可能不是很合适。实际中最常用的是Levene法。
两组连续型资料的分析思路
(1)两组独立样本比较
资料符合正态分布,且两组方差齐性,直接采用t检验。
资料不符合正态分布:
①可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;
②采用非参数检验,如Wilcoxon检验。
资料符合正态分布单方差不齐:
①采用Satterthwate 的t’检验;
②采用非参数检验,如Wilcoxon检验。
(2) 两组配对样本的比较
两组差值服从正态分布,采用配对t检验。
两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。
以上是常用的资料分析的思路,但是实际中可能不止如此简单,比如实际中可能还需要看一下数据是否独立,如果不是独立的,还需要进一步考虑他们之间的相关性。
所谓独立性,其实理解也很简单。最常见的非独立数据就是同一观察对象不同时间点的数据。比如,一个人用药前后的观察值,由于是一个人的数据,很可能就会存在相关性,即非独立,比如,张三用药前的血压高,那用药后的血压可能也高,李四用药前的血压低,用药后可能也较低。而不同人的观察值,没有什么相关性,就是独立的,比如,张三的血压不会影响李四的血压。
多组连续型资料的分析思路
(1)多组完全随机样本比较
资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。
资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值。
(2) 多组随机区组样本比较
资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。
资料不符合正态分布,或各组方差不齐,则采用非参数检验的Friedman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值。
谢谢大家观看,如有帮助,来个喜欢或者关注吧!
本文仅供学习参考,有任何疑问及侵权,扫描以下公众号二维码添加交流:
更多学习内容,仅在知识星球发布: