数据挖掘常见的 p-value 解读-技术圈

在统计的世界里经常听到 p-value，那什么是 p-value 呢？查查 Wikipedia 得到：

In statistical hypothesis testing, the p-value is the probability that, when the null hypothesis is true, the statistical summary (such as the absolute value of the sample mean difference between two groups) would be greater than or equal to the actual observed results.
Wikipedia

Well Done, Wikipedia, 这下连大人都彻底不懂 p-value 了。

但希望下面极简的讲解能让小孩懂什么是 p-value。

讲背景：丢硬币

随机丢硬币，

看是正面还是反面，

如果硬币的质量是均匀分布，

通常称为公平的硬币 (fair coin),

那么出现正面和反面的概率是 1/2。

丢概念：p-value

现在我来丢一个硬币若干次,

你根据结果来判断硬币是否公平。

也就是在下面两种情况选一个

情况 0 ：硬币公平

情况 1：硬币不公平

通常情况 0 是没有意外情况发生，

而情况 1 是有意外情况发生。

p-value 就是假设

在情况 0 为真时观测结果发生的概率，

即硬币公平时观测结果发生的概率。

读完上面的句子如果不懂，

看完下节来回来读一遍。

现在，我开始丢硬币了。。。

做试验：p-value

牢记：p-value 就是硬币公平时观测结果发生的概率。

第一次硬币是反面，p-value 是多少？

次数	观测结果	p-value
1	反面	50%

你觉得硬币不公平吗？

绝壁不会啊！

当硬币公平时，

丢 1 次出现反面有 50% 概率呢。

第二次硬币又是反面， p-value 是多少？

次数	观测结果	p-value
1	反面	50%
2	反面	25%

你觉得硬币不公平吗？

额，不会啊

当硬币公平时，

丢 2 次出现反面有 25% 概率呢。

(50%)^2 = 25%

第三次硬币又是反面， p-value 是多少？

次数	观测结果	p-value
1	反面	50%
2	反面	25%
3	反面	12.5%

你觉得硬币不公平吗？

额，我想想。。。

当硬币公平时，

丢 3 次出现反面有 12.5% 概率。

(50%)^3 = 12.5%

第四次硬币又是反面! p-value 是多少？

次数	观测结果	p-value
1	反面	50%
2	反面	25%
3	反面	12.5%
4	反面	6.25%

你觉得硬币不公平吗？

额额额（挠挠头）

你心理开始变化了吧

当硬币公平时，

丢 4 次出现反面只有 6.25% 概率。

(50%)^4 = 6.25%

第五次硬币又是反面!!! p-value 是多少？

次数	观测结果	p-value
1	反面	50%
2	反面	25%
3	反面	12.5%
4	反面	6.25%
5	反面	3.125%

你觉得硬币不公平吗？

是的！不公平！

你突然开始非常确定了,

当硬币公平时，

丢 5 次出现反面只有 3.125% 概率。

(50%)^5 = 3.125%

恭喜你，答对了，我就是用了一个两边都是反面的硬币来做试验的。

复盘一下

回顾：p-value 就是硬币公平时观测结果发生的概率。

当丢了五次都是反面，

如果硬币公平，

计算出来的 p-value 是 3.125%，

非常不可能在硬币公平时随机发生！

因此我们改变原先的假设，

认为硬币公平是不成立，

进而认为硬币不公平，

这很科学！

让我们产生了改变原假设想法是什么？

是一个很小 p-value 值。

跟着我捋一捋，

在上面丢硬币的过程中，

你是不是在某个时点想大叫一声 WOW，

大概就是连续 5 次看到反面的时候，

你会觉得硬币公平非常可笑，

因而推翻了它。

要推翻硬币公平的假设

你还需要一个基准，

统计上叫做显著性水平，

我把它叫做“搞笑阈值”

当 p-value 还小于这个搞笑阈值，

那原假设明显就搞笑了嘛，

你还像个傻冒一样不推翻它？

总结

来类比一下

小孩听得懂的东西	严谨统计的东西
情况 0	无效假设
情况 1	备择假设
搞笑阈值	显著性水平
判断硬币是否公平	假设检验

在现实中，你永远不可能 100% 的确定假设的真假，因为假设检验的总体参数（population parameter），你不可能在总体上做试验，只可能在样本上做试验，计算样本统计（sample statistics）来判断假设的真假。

就像丢硬币试验一样，我只要不给你看我的硬币，你就不可能 100% 确认这是个不公平的硬币。但是通过做试验（收集一系列样本观测结果），计算 p-value，当小于事先设定好足够小的“搞笑阈值”的时候，你就有充足信心说硬币是不公平的，诚然，你有可能（possible）会错，但不太可能（not probable）会错。