【读书报告】金融数据挖掘-技术圈

Start：关注本公众号后，可直接联系后台获取排版美化的详细文档！

Hints：本篇文章所编纂的资料均来自网络，特此感谢参与奉献的有关人员。

序言

好记性不如烂笔头。读过的书，不管好与坏，做个笔记，方便日后回顾。

章节

数据挖掘的定义：

数据挖掘是从大量的，不完全的，有噪声的，模糊的，随机的实际应用数据中，提取隐含其中的，人们事先不知道的，但又潜在有用的信息和知识的过程。

数据挖掘的方面：

-数据

数值数据、文本数据、图形数据、音频数据、视频数据

-方法

过程：数据准备、数据处理、解释或预测

-目的

数据挖掘的主要目的是解释或预测。解释指解释现象，找出现象背后的原因；预测利用规律对事物未来的发展进行预测

第一章有监督的金融数据分类分析-Logit、LDA、QDA与KNN

第一节 Logistic分类法

第二节 LDA、QDA与KNN分类法

第二章无监督的金融数据分类分析-聚类分析

第一节系统聚类法和K-means聚类法

第三章金融数据抽样

第一节交叉验证方法（Cross Validation）

- 基础交叉验证法 Basic cross validation

- 除一交叉验证法 Leave one out cross validation

- K组交叉验证法 K-Fold cross validation

第二节拔靴法 Bootstrap

第四章线性模型筛选

第一节子集筛选法（subset selection methods）

一最优子集筛选法（Best Subset Selection）

二逐步选择法(Stepwise Selection)

1 向前筛选Forward Stepwise Selection

2 向后筛选 Backward Stepwise Selection

3 混合筛选法

三选择最优模型的标准

1 Cp

2 AIC

3 BIC

4 adjusted R2

第二节收缩筛选法

一岭回归 Ridge Regression

二 Lasso方法

第五章克服维数灾难

第一节主成分分析法

第二节部分最小二乘法

第六章决策树

第一节决策树的分类和基本知识

一回归树

二分类树

第二节三种提高树状模型预测精度的方法

一 Bagging

二 Random Forest

三 Boosting

第七章支持向量机

第一节最大边际分类器

第二节支持向量机

公众号二维码

End：如果有兴趣了解金融量化交易和其他数据分析的实用技术，欢迎关注本公众号