来!一起捋一捋机器学习分类算法
日期 : 2021年04月13日
正文共 :5700字

KNN算法的优缺点是什么?
Naive Bayes算法的基本假设是什么?
entropy loss是如何定义的?
最后,分类算法调参常用的图像又有哪些?

机器学习是使计算机无需显式编程就能学习的研究领域。 ——阿瑟·塞缪尔,1959年
“如果一个程序在使用既有的经验(E)执行某类任务(T)的过程中被认为是“具备学习能力的”,那么它一定需要展现出:利用现有的经验(E),不断改善其完成既定任务(T)的性能(P)的特性。” ——Tom Mitchell, 1997
监督学习
分类问题

逻辑回归




K-近邻算法(K-NN)




支持向量机(SVM)



前文讨论的就是线性SVM。
多项式核中需要指定多项式的次数。它允许在输入空间中使用曲线进行分割。
径向基核(radial basis function, RBF)可用于非线性可分变量。使用平方欧几里德距离,参数的典型值会导致过度拟合。sklearn中默认使用RBF。
类似于与逻辑回归类似,sigmoid核用于二分类问题。


朴素贝叶斯



决策树分类






分类的集成算法

随机森林分类器


梯度提升分类器

使用浅层决策树初始化预测结果。
计算残差值(实际预测值)。
构建另一棵浅层决策树,将上一棵树的残差作为输入进行预测。
用新预测值和学习率的乘积作为最新预测结果,更新原有预测结果。
重复步骤2-4,进行一定次数的迭代(迭代的次数即为构建的决策树的个数)。

分类器的性能
混淆矩阵

假正例&假负例







接受者操作曲线(ROC)和曲线下的面积(AUC)

累积精度曲线

— THE END —

评论