『统计学之数据分析』常用方法盘点（二）-技术圈

阿平 | 作者

知乎 | 来源

相关分析

研究现象之间是否存在某种依存关系，对具体有依存关系的现象探讨相关方向及相关程度。

单相关：两个因素之间的相关关系叫单相关，即研究时只涉及一个自变量和一个因变量
复相关 ：三个或三个以上因素的相关关系叫复相关，即研究时涉及两个或两个以上的自变量和因变量相关
偏相关：在某一现象与多种现象相关的场合，当假定其他变量不变时，其中两个变量之间的相关关系称为偏相关

主成分分析

主成分分析（Principal Component Analysis，PCA），是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。

主成分分析首先是由K.皮尔森（Karl Pearson）对非随机变量引入的，尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。

1. 原理

在用统计分析方法研究多变量的课题时，变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形，变量之间是有一定的相关关系的，当两个变量之间有一定相关关系时，可以解释为这两个变量反映此课题的信息有一定的重叠。

主成分分析是对于原先提出的所有变量，将重复的变量（关系紧密的变量）删去多余，建立尽可能少的新变量，使得这些新变量是两两不相关的，而且这些新变量在反映课题的信息方面尽可能保持原有的信息。

设法将原来变量重新组合成一组新的互相无关的几个综合变量，同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析，也是数学上用来降维的一种方法。

2. 缺点

在主成分分析中，我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平（即变量降维后的信息量须保持在一个较高水平上），其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释（否则主成分将空有信息量而无实际含义）。

主成分的解释其含义一般多少带有点模糊性，不像原始变量的含义那么清楚、确切，这是变量降维过程中不得不付出的代价。因此，提取的主成分个数m通常应明显小于原始变量个数p（除非p本身较小），否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。

因子分析

一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法。

1. 与主成分分析比较

相同：都能够起到治理多个原始变量内在结构关系的作用
不同：主成分分析重在综合原始变适的信息；而因子分析重在解释原始变量间的关系，是比主成分分析更深入的一种多元统计方法

2. 用途

减少分析变量个数
通过对变量间相关关系探测，将原始变量进行分类

信度分析

信度（Reliability）即可靠性，它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。信度指标多以相关系数表示，大致可分为三类：稳定系数（跨时间的一致性），等值系数（跨形式的一致性）和内在一致性系数（跨项目的一致性）。信度分析的方法主要有以下四种：重测信度法、复本信度法、折半信度法、α信度系数法。

1. 方法

重测信度法编辑

这一方法是用同样的问卷对同一组被调查者间隔一定时间重复施测，计算两次施测结果的相关系数。显然，重测信度属于稳定系数。

重测信度法特别适用于事实式问卷，如性别、出生年月等在两次施测中不应有任何差异，大多数被调查者的兴趣、爱好、习惯等在短时间内也不会有十分明显的变化。如果没有突发事件导致被调查者的态度、意见突变，这种方法也适用于态度、意见式问卷。

由于重测信度法需要对同一样本试测两次，被调查者容易受到各种事件、活动和他人的影响，而且间隔时间长短也有一定限制，因此在实施中有一定困难。

复本信度法编辑

让同一组被调查者一次填答两份问卷复本，计算两个复本的相关系数。复本信度属于等值系数。

复本信度法要求两个复本除表述方式不同外，在内容、格式、难度和对应题项的提问方向等方面要完全一致，而在实际调查中，很难使调查问卷达到这种要求，因此采用这种方法者较少。

折半信度法编辑

折半信度法是将调查项目分为两半，计算两半得分的相关系数，进而估计整个量表的信度。折半信度属于内在一致性系数，测量的是两半题项得分间的一致性。

这种方法一般不适用于事实式问卷（如年龄与性别无法相比），常用于态度、意见式问卷的信度分析。

在问卷调查中，态度测量最常见的形式是5级李克特（Likert）量表（李克特量表(Likert scale)是属评分加总式量表最常用的一种，属同一构念的这些项目是用加总方式来计分，单独或个别项目是无意义的。它是由美国社会心理学家李克特于1932年在原有的总加量表基础上改进而成的。该量表由一组陈述组成，每一陈述有"非常同意"、"同意"、"不一定"、"不同意"、"非常不同意"五种回答，分别记为5、4、3、2、1，每个被调查者的态度总分就是他对各道题的回答所得分数的加总，这一总分可说明他的态度强弱或他在这一量表上的不同状态。）。

进行折半信度分析时，如果量表中含有反意题项，应先将反意题项的得分作逆向处理，以保证各题项得分方向的一致性，然后将全部题项按奇偶或前后分为尽可能相等的两半，计算二者的相关系数（rhh，即半个量表的信度系数），最后用斯皮尔曼-布朗（Spearman-Brown）公式：求出整个量表的信度系数（ru）

α信度系数法

α信度系数是目前最常用的信度系数，其公式为：α=(k/(k-1))*(1-(∑Si^2)/ST^2)

其中，K为量表中题项的总数， Si^2为第i题得分的题内方差， ST^2为全部题项总得分的方差。从公式中可以看出，α系数评价的是量表中各题项得分间的一致性，属于内在一致性系数。这种方法适用于态度、意见式问卷（量表）的信度分析。

总量表的信度系数最好在0.8以上，0.7-0.8之间可以接受；分量表的信度系数最好在0.7以上，0.6-0.7还可以接受。Cronbach 's alpha系数如果在0.6以下就要考虑重新编问卷。用于检査测量的可信度，例如调查问卷的真实性。

2. 分类

外在信度：不同时间测量时量表的一致性程度，常用方法重测信度
内在信度：每个量表是否测量到单一的概念，同时组成两表的内在体项一致性如何，常用方法分半信度

列联表分析

列联表是观测数据按两个或更多属性（定性变量）分类时所列出的频数表。

1. 简介

若总体中的个体可按两个属性A、B分类，A有r个等级A1,A2,…，Ar，B有c个等级B1,B2,…，Bc,从总体中抽取大小为n的样本，设其中有nij个个体的属性属于等级Ai和Bj，nij称为频数，将r×c个nij排列为一个r行c列的二维列联表，简称r×c表。若所考虑的属性多于两个，也可按类似的方式作出列联表，称为多维列联表。

列联表又称交互分类表，所谓交互分类，是指同时依据两个变量的值，将所研究的个案分类。交互分类的目的是将两变量分组，然后比较各组的分布状况，以寻找变量间的关系。用于分析离散变量或定型变量之间是否存在相关。

列联表分析的基本问题是，判明所考察的各属性之间有无关联，即是否独立。

如在前例中，问题是：一个人是否色盲与其性别是否有关？在r×с表中，若以pi、pj和pij分别表示总体中的个体属于等级Ai，属于等级Bj和同时属于Ai、Bj的概率（pi，pj称边缘概率，pij称格概率）,“A、B两属性无关联”的假设可以表述为H0：pij=pi·pj，(i=1，2，…，r；j=1,2,…，с)，未知参数pij、pi、pj的最大似然估计（见点估计）分别为行和及列和（统称边缘和）为样本大小。根据K.皮尔森(1904)的拟合优度检验或似然比检验（见假设检验）,当h0成立，且一切pi>0和pj>0时，统计量的渐近分布是自由度为(r－1)(с－1) 的Ⅹ分布，式中Eij=(ni·nj)/n称为期望频数。当n足够大，且表中各格的Eij都不太小时，可以据此对h0作检验：若Ⅹ值足够大，就拒绝假设h0，即认为A与B有关联。在前面的色觉问题中，曾按此检验，判定出性别与色觉之间存在某种关联。

2. 需要注意

若样本大小n不很大,则上述基于渐近分布的方法就不适用。对此，在四格表情形，R.A.费希尔(1935)提出了一种适用于所有n的精确检验法。其思想是在固定各边缘和的条件下，根据超几何分布（见概率分布），可以计算观测频数出现任意一种特定排列的条件概率。把实际出现的观测频数排列，以及比它呈现更多关联迹象的所有可能排列的条件概率都算出来并相加，若所得结果小于给定的显著性水平，则判定所考虑的两个属性存在关联，从而拒绝h0。

对于二维表，可进行卡方检验；对于三维表，可作Mentel-Hanszel分层分析。

列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。

- END -

本文为转载分享&推荐阅读，若侵权请联系后台删除

『统计学 之 数据分析』常用方法盘点（二）

『统计学之数据分析』常用方法盘点（二）