数据分布和各种检验-技术圈

看数据分布，一看直方图，一看各种统计指标。具体看哪个指标，依然是老话：看场景。

统计指标有哪些：

【变异程度】：衡量数据的离散程度

1、极差：最大值-最小值

仅使用两个观测值度量变异程度，极其容易受到异常值的影响，一般不使用

2、四分位数间距IQR：IQR= Q3 - Q1 是中间50%数的极差

3、方差：使用所有数据对变异程度的一种度量

s^2 = \Sigma(x_i - \bar{x}) \div (n-1)

协方差是衡量两个指标变化方向的一致性

4、标准差：方差的平方根，和原始单位一致，衡量平均距离平均值的距离。如果有异常数值的话，会增大标准差

5、标准差系数：标准差/平均数

可以用来比较不同单位不同量级的变量变异程度

【数据分布】偏度、峰度

【z分数】对相对位置的度量

z = (x_i - \bar{x}) \div s

【异常值检测】异常大或者异常小的数据，我们称之为异常值

可以使用标准化数值z来，或者使用分位数来判断异常值

【分位数】箱线图常用来分组对比数据分布情况

【抽样】从总体中抽取有限样本对总体进行估计

由于是从总体中进行随机抽样，所以如果进行多次重复抽样，那么得到的样本肯定有所不同，但是他们中间又有重叠和关联

每一次随机抽样，都能够得到一个

\bar{x}

，所以它本身也就是一个变量，也就有所谓的均值、标准差、方差

【中心极限定理】从总体中抽取n个随机样本，当样本容量很大的时候，样本均值 $\bar{x}$ 的抽样分布服从正态分布

一般来说n=30的时候，分布就较能够符合正态分布了

\bar{x}

的标准差，我们一般称之为标准误差，样本数量越大，相对的误差也就越小

因为我们不能指望随机抽出来的样本均值就是总体均值，我们给到的是一个概率和范围，也称之为区间估计

中心极限定理是置信区间/置信度的核心，深刻理解抽样分布和中心极限定理是后续的基石

【置信区间：点估计 +/- 边际误差】在预测以及AB中应用广泛

【假设检验】运用在AB测试，模型的显著性检验，相关系数的显著性检验等领域

【第一类错误】如果原假设为真，而被我们拒绝了（新功能并没有比原功能更好，却被我们误以为新功能更好）的错误，叫做第一类错误。犯第一类错误的概率叫做显著性水平，一般我们会取0.05,0.1。
【第二类错误】如果备则假设为假，而被我们拒绝了（新功能比原功能更好，却没有被发现）的错误，叫做第二类错误。犯第二种错误的概率一般取0.2，反过来一般我们称之为统计功效 power = 1- $\beta$

为了保证第一类错误和第二类错误控制在一定的水平，需要保证样本量大于某个阈值，AB测试样本量计算的原理

【独立两样本t检验】两个独立随机抽取的样本分布的均值/比例区别

两个独立随机样本的均值差距越远，越有可能不同，两个样本的方差越小，越有可能不同

((\bar{x_1} - \bar{x_2}) - D_0) \div (\sqrt {s_1^2/n1} + \sqrt {s_2^2/n2})

【卡方检验】用于多分类变量的比例检验，计算期望和实际的距离

有个非常通俗易懂的文章可以看看：

https://zhuanlan.zhihu.com/p/69888032

【方差分析】用来衡量多组样本是否均值相等

F = 组间（处理）方差/组内方差（误差） = SSTR/SSE

线性回归整体的显著性用的也是F检验，F=被解释的方差/残差

以上回顾的内容，都是非常基础的内容，但是在面试过程中发现，真的能掌握的人比例还不多，并且还都是名校毕业的孩子。越是基础越是重要，更具有普适性。

·················END·················

数据分布和各种检验