近邻法是一种基本分类与回归分析方法。
近邻法的输入为实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多类。
近邻法实际上利用训练数据集对特征向量空间进行划分,并作为其分类的“模型”。
值的选择、距离度量及分类决策规则是 近邻法的三个基本要素。
本章先叙述 近邻算法,然后讨论 近邻法的模型及三个基本要素,最后讲述 近邻算法的一个实现。
先讲述 近邻算法和三个基本要素。
给定一个训练数据集,对新输入实例,在训练数据集中找到与该实例最邻近的 个实例,这 个实例的多数属于某个类,就把该输入实例分为这个类。
输入:
其中,
为实例的特征向量, 为实例的类别。
输出:
实例 所属的类
1)根据给定的距离向量,在训练数据集中找出与 最邻近的 个点。
2)在这 个点中根据分类规则决定 的类别
k近邻法使用的模型实际上对应于对特征空间的划分。由模型的三个基本要素——距离度量、k值的选择和分类决策规则决定。
特征空间中两个实例点的距离是两个实例点相似程度的反映。
设特征向量x是n维实数向量空间, , , ,
则: 的距离定义为,
,曼哈顿距离
,欧式距离
,切比雪夫距离
值的选择会对近邻法的结果产生重大影响。
如果选择较小的 值,就相当于用较小的领域中的训练实例进行预测,“学习”的近似误差会减小,只有与输入实例较近的训练实例才会对预测结果起作用。或者说, 值的减小就意味着整体模型变得复杂,容易发生过拟合。
如果选择较大的 值,就相当于用较大领域中的训练实例进行预测。其优点是可以减少学习的估计误差。 值的增大就意味着模型变得简单。
近邻法中的分类决策规则往往是多数表决,即由输入实例的 个近邻的训练实例中的多数类决定输入实例的类。多数表决规则等价于经验风险最小化。
微信号:sdxx_rmbj
日常更新学习笔记、论文简述