『统计学之数据分析』常用方法盘点（一）-技术圈

阿平 | 作者

知乎 | 来源

聚类分析

聚类与分类的不同在于，聚类所要求划分的类是未知的。

聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。聚类分析所使用方法的不同，常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致。

从实际应用的角度看，聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法（如分类和定性归纳算法）的预处理步骤。

1. 定义

依据研究对象（样品或指标）的特征，对其进行分类的方法，减少研究对象的数目。

各类事物缺乏可靠的历史资料，无法确定共有多少类别，目的是将性质相近事物归入一类。各指标之间具有一定的相关关系。

变量类型：定类变量、定量（离散和连续）变量

样本个体或指标变量按其具有的特性进行分类，寻找合理的度量事物相似性的统计量。

2. 性质分类

Q型聚类分析：对样本进行分类处理，又称样本聚类分析使用距离系数作为统计量衡量相似度，如欧式距离、极端距离、绝对距离等。
R型聚类分析：对指标进行分类处理，又称指标聚类分析使用相似系数作为统计量衡量相似度，相关系数、列联系数等。

3. 方法分类

系统聚类法：适用于小样本的样本聚类或指标聚类，一般用系统聚类法来聚类指标，又称分层聚类
逐步聚类法：适用于大样本的样本聚类
其他聚类法：两步聚类、K均值聚类等

回归分析

1. 一元线性回归分析

只有一个自变量X与因变量Y有关，X与Y都必须是连续型变量，因变量y或其残差必须服从正态分布。

2. 多元线性回归分析

使用条件：分析多个自变量与因变量Y的关系，X与Y都必须是连续型变量，因变量y或其残差必须服从正态分布

变呈筛选方式

选择最优回归方程的变呈筛选法包括全横型法（CP法）、逐步回归法、向前引入法和向后剔除法。

横型诊断方法

残差检验：观测值与估计值的差值要艰从正态分布
强影响点判断：寻找方式一般分为标准误差法、Mahalanobis距离法
共线性诊断：
a. 诊断方式：容忍度、方差扩大因子法(又称膨胀系数VIF)、特征根判定法、条件指针CI、方差比例
b. 处理方法：增加样本容量或选取另外的回归如主成分回归、岭回归等

3. Logistic回归分析

线性回归模型要求因变量是连续的正态分布变里，且自变量和因变量呈线性关系，而Logistic回归模型对因变量的分布没有要求，一般用于因变量是离散时的情况

分类：Logistic回归模型有条件与非条件之分，条件Logistic回归模型和非条件Logistic回归模型的区别在于参数的估计是否用到了条件概率

4. 其他回归方法

非线性回归、有序回归、Probit回归、加权回归等

方差分析

使用条件：各样本须是相互独立的随机样本；各样本来自正态分布总体；各总体方差相等。

分类：

单因素方差分析：一项试验只有一个影响因素，或者存在多个影响因素时，只分析一个因素与响应变量的关系
多因素有交互方差分析：一项实验有多个影响因素，分析多个影响因素与响应变量的关系，同时考虑多个影响因素之间的关系
多因素无交互方差分析：分析多个影响因素与响应变量的关系，但是影响因素之间没有影响关系或忽略影响关系
协方差分析：传统的方差分析存在明显的弊端，无法控制分析中存在的某些随机因素，使之影响了分析结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析，是将线性回归与方差分析结合起来的一种分析方法

假设检验

1. 参数检验

参数检验是在已知总体分布的条件下（一般要求总体服从正态分布）对一些主要的参数（如均值、百分数、方差、相关系数等）进行的检验。

U验

使用条件：当样本含量n较大时，样本值符合正态分布

T检验

使用条件：当样本含量n较小时，样本值符合正态分布

单样本t检验：推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别
配对样本t检验：当总体均数未知时，且两个样本可以配对，同对中的两者在可能会影响处理效果的各种条件方面极为相似
两独立样本t检验：无法找到在各方面极为相似的两样本作配对比较时使用

2. 非参数检验

非参数检验则不考虑总体分布是否已知，常常也不是针对总体参数，而是针对总体的某些一股性假设（如总体分布的位罝是否相同，总体分布是否正态）进行检验。

适用情况：顺序类型的数据资料，这类数据的分布形态一般是未知的。

虽然是连续数据，但总体分布形态未知或者非正态
体分布虽然正态，数据也是连续类型，但样本容量极小，如10以下

主要方法包括：卡方检验、秩和检验、二项检验、游程检验、K-量检验等。

描述统计

描述统计是通过图表或数学方法，对数据资料进行整理、分析，并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析、离中趋势分析和相关分析三大部分。

1. 集中趋势分析

集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。

例如被试的平均成绩多少？是正偏分布还是负偏分布？

2. 离中趋势分析

离中趋势分析主要靠全距、四分差、平均差、方差（协方差：用来度量两个随机变量关系的统计量）、标准差等统计指标来研究数据的离中趋势。

例如，我们想知道两个教学班的语文成绩中，哪个班级内的成绩分布更分散，就可以用两个班级的四分差或百分点来比较。

3. 相关分析

相关分析探讨数据之间是否具有统计学上的关联性。

这种关系既包括两个数据之间的单一相关关系——如年龄与个人领域空间之间的关系，也包括多个数据之间的多重相关关系——如年龄、抑郁症发生率、个人领域空间之间的关系；既包括A大B就大(小)，A小B就小(大)的直线相关关系，也可以是复杂相关关系（A=Y-B*X）；既可以是A、B变量同时增大这种正相关关系，也可以是A变量增大时B变量减小这种负相关，还包括两变量共同变化的紧密程度——即相关系数。

实际上，相关关系唯一不研究的数据关系，就是数据协同变化的内在根据——即因果关系。获得相关系数有什么用呢？简而言之，有了相关系数，就可以根据回归方程，进行A变量到B变量的估算，这就是所谓的回归分析，因此，相关分析是一种完整的统计研究方法，它贯穿于提出假设，数据研究，数据分析，数据研究的始终。

例如，我们想知道对监狱情景进行什么改造，可以降低囚徒的暴力倾向。我们就需要将不同的囚舍颜色基调、囚舍绿化程度、囚室人口密度、放风时间、探视时间进行排列组合，然后让每个囚室一种实验处理，然后用因素分析法找出与囚徒暴力倾向的相关系数最高的因素。假定这一因素为囚室人口密度，我们又要将被试随机分入不同人口密度的十几个囚室中生活，继而得到人口密度和暴力倾向两组变量（即我们讨论过的A、B两列变量）。然后，我们将人口密度排入X轴，将暴力倾向分排入Y轴，获得了一个很有价值的图表，当某典狱长想知道，某囚舍扩建到N人/间囚室，暴力倾向能降低多少。我们可以当前人口密度和改建后人口密度带入相应的回归方程，算出扩建前的预期暴力倾向和扩建后的预期暴力倾向，两数据之差即典狱长想知道的结果。

4. 推论统计

推论统计是统计学乃至于心理统计学中较为年轻的一部分内容。它以统计结果为依据，来证明或推翻某个命题。具体来说，就是通过分析样本与样本分布的差异，来估算样本与总体、同一样本的前后测成绩差异，样本与样本的成绩差距、总体与总体的成绩差距是否具有显著性差异。

例如，我们想研究教育背景是否会影响人的智力测验成绩。可以找100名24岁大学毕业生和100名24岁初中毕业生。采集他们的一些智力测验成绩。用推论统计方法进行数据处理，最后会得出类似这样儿的结论：“研究发现，大学毕业生组的成绩显著高于初中毕业生组的成绩，二者在0.01水平上具有显著性差异，说明大学毕业生的一些智力测验成绩优于中学毕业生组。”

5. 正态性检验

很多统计方法都要求数值服从或近似服从正态分布，所以之前需要进行正态性检验。

常用方法：非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。

- END -

本文为转载分享&推荐阅读，若侵权请联系后台删除

『统计学 之 数据分析』常用方法盘点（一）

『统计学之数据分析』常用方法盘点（一）