来!一起捋一捋机器学习分类算法
日期 : 2021年04月13日
正文共 :5700字
KNN算法的优缺点是什么?
Naive Bayes算法的基本假设是什么?
entropy loss是如何定义的?
最后,分类算法调参常用的图像又有哪些?
机器学习是使计算机无需显式编程就能学习的研究领域。 ——阿瑟·塞缪尔,1959年
“如果一个程序在使用既有的经验(E)执行某类任务(T)的过程中被认为是“具备学习能力的”,那么它一定需要展现出:利用现有的经验(E),不断改善其完成既定任务(T)的性能(P)的特性。” ——Tom Mitchell, 1997
监督学习
分类问题
逻辑回归
K-近邻算法(K-NN)
支持向量机(SVM)
前文讨论的就是线性SVM。
多项式核中需要指定多项式的次数。它允许在输入空间中使用曲线进行分割。
径向基核(radial basis function, RBF)可用于非线性可分变量。使用平方欧几里德距离,参数的典型值会导致过度拟合。sklearn中默认使用RBF。
类似于与逻辑回归类似,sigmoid核用于二分类问题。
朴素贝叶斯
决策树分类
分类的集成算法
随机森林分类器
梯度提升分类器
使用浅层决策树初始化预测结果。
计算残差值(实际预测值)。
构建另一棵浅层决策树,将上一棵树的残差作为输入进行预测。
用新预测值和学习率的乘积作为最新预测结果,更新原有预测结果。
重复步骤2-4,进行一定次数的迭代(迭代的次数即为构建的决策树的个数)。
分类器的性能
混淆矩阵
假正例&假负例
接受者操作曲线(ROC)和曲线下的面积(AUC)
累积精度曲线
— THE END —
评论