数据分布和各种检验

数据管道

共 1724字,需浏览 4分钟

 · 2021-12-19

看数据分布,一看直方图,一看各种统计指标。具体看哪个指标,依然是老话:看场景。

统计指标有哪些:

【变异程度】:衡量数据的离散程度
1、极差:最大值-最小值
仅使用两个观测值度量变异程度,极其容易受到异常值的影响,一般不使用

2、四分位数间距IQR:IQR= Q3 - Q1 是中间50%数的极差

3、方差:使用所有数据对变异程度的一种度量
  

协方差是衡量两个指标变化方向的一致性

4、标准差:方差的平方根,和原始单位一致,衡量平均距离平均值的距离。如果有异常数值的话,会增大标准差

5、标准差系数:标准差/平均数
可以用来比较不同单位不同量级的变量变异程度

【数据分布】偏度、峰度
  • 左偏的话偏度<0,右偏的话偏度>0

  • 正态分布的峰度是3,所以一般峰度-3。越尖越大



【z分数】对相对位置的度量  
                              

【异常值检测】异常大或者异常小的数据,我们称之为异常值
  • 正确的异常值

  • 错误的异常值

可以使用标准化数值z来,或者使用分位数来判断异常值 

【分位数】箱线图  常用来分组对比数据分布情况
  • 下限:Q1 - 1.5IQR

  • 上限:Q3 + 1.5IQR

  • 中位数:Q2

  • 异常值:上下限之外的数值


【抽样】从总体中抽取有限样本对总体进行估计
由于是从总体中进行随机抽样,所以如果进行多次重复抽样,那么得到的样本肯定有所不同,但是他们中间又有重叠和关联

每一次随机抽样,都能够得到一个 ,所以它本身也就是一个变量,也就有所谓的均值、标准差、方差

【中心极限定理】从总体中抽取n个随机样本,当样本容量很大的时候,样本均值  的抽样分布服从正态分布
一般来说n=30的时候,分布就较能够符合正态分布了

  的标准差,我们一般称之为标准误差,样本数量越大,相对的误差也就越小

因为我们不能指望随机抽出来的样本均值就是总体均值,我们给到的是一个概率和范围,也称之为区间估计

中心极限定理是置信区间/置信度的核心,深刻理解抽样分布和中心极限定理是后续的基石

【置信区间:点估计 +/- 边际误差】在预测以及AB中应用广泛
  • 误差和置信水平有关,置信水平越高(99%),则区间越大;

  • 误差和样本方差有关,样本方差越大,区间越大

  • 误差和样本数量有关,样本数量越小,区间越大


【假设检验】运用在AB测试,模型的显著性检验,相关系数的显著性检验等领域
  • 【第一类错误】如果原假设为真,而被我们拒绝了(新功能并没有比原功能更好,却被我们误以为新功能更好)的错误,叫做第一类错误。犯第一类错误的概率叫做显著性水平,一般我们会取0.05,0.1。

  • 【第二类错误】如果备则假设为假,而被我们拒绝了(新功能比原功能更好,却没有被发现)的错误,叫做第二类错误。犯第二种错误的概率一般取0.2,反过来一般我们称之为统计功效 power = 1-  


为了保证第一类错误和第二类错误控制在一定的水平,需要保证样本量大于某个阈值,AB测试样本量计算的原理

【独立两样本t检验】两个独立随机抽取的样本分布的均值/比例区别
两个独立随机样本的均值差距越远,越有可能不同,两个样本的方差越小,越有可能不同
  


【卡方检验】用于多分类变量的比例检验,计算期望和实际的距离
有个非常通俗易懂的文章可以看看:
https://zhuanlan.zhihu.com/p/69888032


【方差分析】用来衡量多组样本是否均值相等

F = 组间(处理)方差/组内方差(误差) = SSTR/SSE

线性回归整体的显著性用的也是F检验,F=被解释的方差/残差 

以上回顾的内容,都是非常基础的内容,但是在面试过程中发现,真的能掌握的人比例还不多,并且还都是名校毕业的孩子。越是基础越是重要,更具有普适性。
·················END·················

推荐阅读

  1. 我在字节做了哪些事

  2. 写给所有数据人。

  3. 从留存率业务案例谈0-1的数据指标体系

  4. 数据分析师的一周

  5. 超级菜鸟如何入门数据分析?


欢迎长按扫码关注「数据管道」

浏览 97
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报