800名科学家联名主张废除p值!斯坦福教授:没有p值,期刊将充斥“...
新智元报道
来源:qz、nature等
编辑:大明、小芹
【新智元导读】统计显著性和p值是衡量研究可靠性的重要标准。这个标准是怎么来的?今年3月Nature上一篇主张废除p值的文章,为何获得800位科学家联名支持?如果没有p值门槛,研究质量会出现大滑坡吗?戳右边链接上 新智元小程序 了解更多!
每年,全球有数百万学生修读统计学课程。随着世界上的数据量越来越大,统计学已成为越来越受欢迎的话题。如果大多数学生都从这门课中记住一点,那可能就是“统计显著性”和“p值”的概念。
这两个概念通常用于量化研究结果是否是偶然发生的问题。例如,某公司想要衡量两个不同广告投放到Facebook上的影响。他们发现,一个广告吸引了10%的用户点击,而另一个广告吸引了8%。为了弄清楚这种差异是确有意义,还是偶然发生,就可能会进行统计学测试,看看结果是否“显著”。如果p值大于0.05,则判定为偶然,否则认为这个差异确有意义。通常,很多商业和医学上的决策都是基于这个“5%原则”制定的。
“统计显著”和p值的起源:从“建议”到“金标准”
“显著”一词最早见于19世纪80年代,英国经济学家和统计学家弗朗西斯·埃奇沃思(Francis Edgeworth)在统计检验中首次使用该词。据统计学家格伦·谢弗(Glenn Shafer)称,当时使用这个词的方式与今天不同。Edgeworth讨论了这个词有多大几率“标志”了有意义的差异。当时Edgeworth将一项发现称为“可能显著的”或“一定显著的”。
罗纳德·菲舍尔(Ronald Fisher)
Nature发文:是时候放弃“统计显著性”了!获800人签名支持
今年3月,学者Valentin Amrhein,Sander Greenland和Blake McShane提出,如果没有这个概念可能会更好。他们希望“统计学显著”这个概念应该退出历史舞台,他们的观点得到很多人的支持。他们在《自然》期刊上撰文,要求将“统计显著”这个词从统计学中去掉,此文获得800多位学者的签名支持,其中不乏量化和统计学领域的重要人物。
他们的这篇文章名为《科学家们起来反对统计学意义》(Scientists rise up against statistical significance)。
标题犹如战斗檄文一样令人振奋。在文章发出不到24小时,就有250多人签名支持,一周之内吸引了超过800名研究人员共同反对。
大学里好不容易听懂的统计学,会变成一件没“意义”的事情吗?

几代人以来,研究人员一直被警告说:统计上不显著的结果并不能“证明”零假设(即假设各组之间没有差异,或者某个处理方法对某些测量结果没有影响)。统计上显著的结果也不能“证明”其他一些假设。这种误解用夸大的观点扭曲了文献,而且导致了一些研究之间的冲突。
三位统计学家提出一些建议,让科学家们不至于成为这些误解的牺牲品。
首先明确必须停止的事:永远不应该仅仅因为P值大于阈值(如0.05)就得出“没有差异”或“没有关联”的结论;或者,仅仅因为置信区间包含0就得出这样的结论。
同时,我们也不应该断定两项研究之间存在冲突,只因为其中一项研究的结果具有统计学意义,而另一项则没有。这些错误浪费了研究工作,误导了政策决策。
当区间估计包含严重的风险增加时,得出结论认为统计上不显著的结果显示“无关联”是荒谬的;同样荒谬的是,声称这些结果与先前研究中显示相同观察效果的结果相反。然而,这些常见的实践表明,依赖统计意义上的阈值会误导我们。
谨防错误结论
这些错误以及类似的错误普遍存在。对数百篇文章的调查发现,统计上不显著的结果被解释为“没有差异”或“没有影响”的约有一半。
Amrhein,Greenland和McShane认为,基于规则的思维是“统计显著性”的最大问题。他们认为:“麻烦是人为的和认知层面的,而不是统计学上的:将结果分类为'统计显著'和'统计不显著',使人们认为以这种方式划分的对象属于不同类别。”
这种对“统计显著性”的二元化标准的严重依赖,可能导致对医学和社会科学新发现的真实性信心不足甚至丧失。

研究人员不应考虑结果是否“统计显著性”,而是应该对结果进行成本效益分析,因为微不足道的结果可能仍然有用。比如实验性抗癌药物与安慰剂之间的差异为阳性,但达不到统计学显著的标准,这时将该药物提供给某些患者仍然是值得的,尤其是药效获得强理论支持的情况下。也就是说,应该根据结果有用的可能性来讨论结果,而不是看是否满足一些统计阈值。
反对意见:放弃p值,“无可辩驳的废话”将充斥期刊
不过,并非所有人都认为应该取消“统计显著性”的概念和p值。统计学家、斯坦福大学教授约翰·约阿尼迪斯(John Ioannidis)就是其中之一。他曾对Nature这篇文章表达了明确的质疑,并撰文总结了与该文作者Sander Greenland和Blake McShane的商榷内容。他认为,设立一定的门槛是有必要的,如果没有“统计显著性”作为界限,那么几乎任何结果都可能会发表,“无可辩驳的废话”将会占据统治地位。”
“放弃统计学意义”真的是个好主意吗?John Ioannidis列举了他对Nature那篇引发大讨论的文章的不同意见:
误导性在于:这个例子事实上是错误的;只有在我们确定其影响确实是非空的情况下才成立。
误导性在于:我认为,更重要的是考虑可能存在哪些偏差,哪个偏差可能导致整个区间偏离,并因此与事实不符。
误导性在于:这种说法等同于无稽之谈。确实,在大多数情况下需要作出是/否的决定,这就是为什么删除统计学意义无济于事。它会导致“一切皆有可能”的情况。对于需要做出决定的问题,研究设计需要提前(尽可能提前)考虑所有其他参数,并设置一些预先指定的规则,确定哪些是“成功”/可操作的结果,哪些不是。这可以基于p值、贝叶斯因子、FDR或其他阈值或其他函数。但游戏需要一些规则才能公平。否则,我们将陷入比现在更混乱的局面,因为主观解释已经比比皆是了。例如,任何公司都可以声称其产品的任何试验结果确实支持其申请专利。
总的来看,目前关于“统计显著性”的根深蒂固的想法还不会很快消失。统计显著性对于定量分析仍然非常重要,目前,美国统计协会和英国皇家统计协会的官方期刊都以这个词(Significance)命名。
参考链接:
https://qz.com/638059/many-scientific-truths-are-in-fact-false/
https://www.nature.com/articles/d41586-019-00857-9?from=singlemessage&isappinstalled=0#ref-CR4
https://statmodeling.stat.columbia.edu/2019/03/20/retire-statistical-significance-the-discussion/
https://qz.com/1729049/the-origins-of-the-concept-of-statistical-significance/