『统计学之数据分析』常用方法盘点（三）-技术圈

阿平 | 作者

知乎 | 来源

『统计学之数据分析』常用方法盘点（一）

『统计学之数据分析』常用方法盘点（二）

判别分析

1. 定义

根据已掌握的一批分类明确的样品建立判别函数，使产生错判的事例最少，进而对给定的一个新样品，判断它来自哪个总体。

2. 与聚类分析区别

聚类分析的知识我们在第一部分已经提到了→『统计学 x 数据分析』常用方法盘点 Part.1

聚类分析可以对样本逬行分类，也可以对指标进行分类；而判别分析只能对样本。
聚类分析事先不知道事物的类别，也不知道分几类；而判别分析必须事先知道事物的类别，也知道分几类。
聚类分析不需要分类的历史资料，而直接对样本进行分类；而判别分析需要分类历史资料去建立判别函数，然后才能对样本进行分类。

3. 进行分类

Fisher判别分析法

以距离为判别准则来分类，即样本与哪个类的距离最短就分到哪一类，适用于两类判别
以概率为判别准则来分类，即样本属于哪一类的概率最大就分到哪一类，适用于多类判别

BAYES判别分析法

BAYES判别分析法比FISHER判别分析法更加完善和先进，它不仅能解决多类判别分析，而且分析时考虑了数据的分布状态，所以一般较多使用。

时间序列分析

动态数据处理的统计方法，研究随机数据序列所遵从的统计规律，以用于解决实际问题；时间序列通常由4种要素组成：趋势、季节变动、循环波动和不规则波动。

主要方法：移动平均滤波与指数平滑法、ARIMA横型、量ARIMA横型、ARIMAX模型、向呈自回归横型、ARCH族模型

时间序列是指同一变量按事件发生的先后顺序排列起来的一组观察值或记录值。构成时间序列的要素有两个：

时间
与时间相对应的变量水平

实际数据的时间序列能够展示研究对象在一定时期内的发展变化趋势与规律，因而可以从时间序列中找出变量变化的特征、趋势以及发展规律，从而对变量的未来变化进行有效地预测。

时间序列的变动形态一般分为四种：长期趋势变动，季节变动，循环变动，不规则变动。

1. 时间序列预测法的应用

系统描述：根据对系统进行观测得到的时间序列数据，用曲线拟合方法对系统进行客观的描述

系统分析：当观测值取自两个以上变量时，可用一个时间序列中的变化去说明另一个时间序列中的变化，从而深入了解给定时间序列产生的机理

预测未来：一般用ARMA模型拟合时间序列，预测该时间序列未来值

决策和控制：根据时间序列模型可调整输入变量使系统发展过程保持在目标值上，即预测到过程要偏离目标时便可进行必要的控制

2. 特点

假定事物的过去趋势会延伸到未来
预测所依据的数据具有不规则性
撇开了市场发展之间的因果关系

（1）时间序列分析预测法是根据市场过去的变化趋势预测未来的发展，它的前提是假定事物的过去会同样延续到未来。

（2）时间序列分析预测法突出了时间因素在预测中的作用，暂不考虑外界具体因素的影响。

生存分析

用来研究生存时间的分布规律以及生存时间和相关因索之间关系的一种统计分析方法

1. 包含内容

描述生存过程，即研究生存时间的分布规律
比较生存过程，即研究两组或多组生存时间的分布规律，并进行比较
分析危险因素，即研究危险因素对生存过程的影响
建立数学模型，即将生存时间与相关危险因素的依存关系用一个数学式子表示出来

2. 方法

统计描述

包括求生存时间的分位数、中数生存期、平均数、生存函数的估计、判断生存时间的图示法，不对所分析的数据作出任何统计推断结论

非参数检验

检验分组变量各水平所对应的生存曲线是否一致，对生存时间的分布没有要求，并且检验危险因素对生存时间的影响。

乘积极限法（PL法）
寿命表法(LT法)

半参数横型回归分析

在特定的假设之下，建立生存时间随多个危险因素变化的回归方程，这种方法的代表是Cox比例风险回归分析法

参数模型回归分析

已知生存时间服从特定的参数横型时，拟合相应的参数模型，更准确地分析确定变量之间的变化规律

典型相关分析

相关分析一般分析两个变量之间的关系，而典型相关分析是分析两组变量（如3个学术能力指标与5个在校成绩表现指标）之间相关性的一种统计分析方法。

典型相关分析的基本思想和主成分分析的基本思想相似，(主成分分析知识→『统计学』最常用的数据分析方法都在这了！Part.2）它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究，并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。

R0C分析

R0C曲线是根据一系列不同的二分类方式(分界值或决定阈），以真阳性率（灵敏度)为纵坐标，假阳性率（1-特异度)为横坐标绘制的曲线。

用途：

R0C曲线能很容易地査出任意界限值时的对疾病的识别能力
选择最佳的诊断界限值。R0C曲线越靠近左上角，试验的准确性就越高
两种或两种以上不同诊断试验对疾病识别能力的比较，一股用R0C曲线下面积反映诊断系统的准确性

其他分析方法

多重响应分析、距离分析、项目分析、对应分析、决策树分析、神经网络、系统方程、蒙特卡洛模拟等。

决策树分析与随机森林：尽管有剪枝等等方法，一棵树的生成肯定还是不如多棵树，因此就有了随机森林，解决决策树泛化能力弱的缺点。（可以理解成三个臭皮匠顶过诸葛亮）

决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。

由于这种决策分支画成图形很像一棵树的枝干，故称决策树。

在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度，使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。

分类树（决策树）是一种十分常用的分类方法。他是一种监管学习，所谓监管学习就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。

优点

决策树易于理解和实现，人们在在学习过程中不需要使用者了解很多的背景知识，这同时是它的能够直接体现数据的特点，只要通过解释后都有能力去理解决策树所表达的意义。

对于决策树，数据的准备往往是简单或者是不必要的，而且能够同时处理数据型和常规型属性，在相对短的时间内能够对大型数据源做出可行且效果良好的结果。易于通过静态测试来对模型进行评测，可以测定模型可信度；如果给定一个观察的模型，那么根据所产生的决策树很容易推出相应的逻辑表达式。

缺点

对连续性的字段比较难预测
对有时间顺序的数据，需要很多预处理的工作
当类别太多时，错误可能就会增加的比较快
一般的算法分类的时候，只是根据一个字段来分析

『统计学 之 数据分析』常用方法盘点（三）

『统计学之数据分析』常用方法盘点（三）