数据特征的选取
图像特征的提取和选择是图像处理过程中很重要的环节,对后续图像分类有着重要的影响,并且对于图像数据具有样本少,维数高的特点,要从图像中提取有用的信息,必须对图像特征进行降维处理,特征提取与特征选择就是最有效的降维方法,其目的是得到一个反映数据本质结构、识别率更高的特征子空间 。
一.原始特征提取
1.图像的基本特征
颜色特征
形状特征
纹理特征
空间关系特征
2.基于颜色特征的提取方法
颜色直方图
颜色集,是对颜色直方图的一种近似,其将图像表达为一个二进制的颜色索引集
颜色矩,其将图像中任何的颜色分布用它的矩来表示
颜色聚合向量
颜色相关图
颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质。由于颜色对图像或图像区域的方向、大小等变化不敏感,所以颜色特征不能很好的捕捉图像中对象的局部特征。另外,仅使用颜色特征查询时,如果数据库很大,常会将许多不需要的图像也检索出来。颜色直方图是最常用的表达颜色特征的方法,其优点是不受图像旋转和平移变化的影响,进一步借助归一化还可不受图像尺度变化的影响,基缺点是没有表达出颜色空间分布的信息。
3.基于纹理特征的提取方法
基于统计的灰度共生矩阵和能量谱函数法
几何法,例如基于图像基元的结构化方法
模型法,以图像的构造模型为基础,采用模型参数作为纹理特征,典型的方法有随机场模型法
信号处理法,例如,小波变换
纹理特征也是一种全局特征,它也描述了图像或图像区域所对应景物的表面性质。作为一种统计特征,纹理特征常具有旋转不变性,并且对于噪声有较强的抵抗能力。但纹理只是一种物体表面的特性,无法完全反映出物体的本质属性,所以仅利用纹理特征无法获得高层次图像内容,且纹理特征还有一个很明显的缺点是当图像的分辨率变化的时候,所计算出来的纹理可能会有较大偏差。
4.基于形状特征的提取方法
基于边界的,例如Hough变换,傅里叶变换等
基于区域的,例如矩不变量,几何矩特征,转动惯量等
其他方法,例如有限元法,旋转函数和小波描述符等
基于形状特征的检索方法都可以比较有效地利用图像中感兴趣的目标来进行检索 ,但也存在一些问题,例如当目标有变形时检索结果就不太可靠,且许多形状特征仅描述了目标的局部特征,对全面描述目标有较高的时间和空间要求等。
5.基于空间关系的特征提取方法
空间关系,是指图像中分割出来的多个目标之间的相互的空间位置或相对方向关系,这些关系可分为连接/邻接关系、交叠/重叠关系和包含/包容关系等。提取图像空间关系特征可以有两种方法:一种方法是首先对图像进行自动分割,划分出图像中所包含的对象或颜色区域,然后根据这些区域提取图像特征,并建立索引;另一种方法则简单地将图像均匀地划分为若干规则子块,然后对每个图像子块提取特征,并建立索引。
空间关系特征的使用可加强对图像内容的描述区分能力,但空间关系特征常对图像或目标的旋转、反转、尺度变化等比较敏感。另外,实际应用中,仅仅利用空间信息往往是不够的,不能有效准确地表达场景信息。
6.小结
上述特征提取方法是图像特征的初步获取,其各有利弊。针对不同的实际问题,可选择适当的图像特征提取方法。但有时仅用单一的特征来进行图像检索或匹配,其结果准确度不高,为了提高准确度,有人提出了多特征融合的图像检索或匹配技术。
二.特征提取
对于初步获取的图像特征,可能维数依然很大,且可能包含一定的无关或冗余特征。这里的特征提取是指从初步获取的原始特征中通过一定的数学运算得到一组新的特征也称作特征变换,其可以有效的降低特征空间维数和消除特征之间可能存在的相关性,减少特征中的无用信息。
1.特征提取的基本方法
线性方法,如主成分分析法(PCA),线性判别分析法(LDA),多维尺度法(MDS)
非线性方法,如核方法(KPCA,KDA),流型学习
2.主成分分析法
PCA方法是从一组特征中通过求解最优的正交变换,得到一组相互间方差最大的新特征,它们是原始特征的线性组合,且相互之间是不相关的,再对新特征进行重要性排序,选取前几个主成分。用较少的主成分来表示数据,可以实现特征的降维,还可以消除数据中的噪声。该算法不考虑样本的类别信息,是一种无监督的方法。
3.线性判别方法
该方法基本思想是将高维的数据样本投影到最佳判别的矢量空间,以达到提取分类信息和压缩特征空间维数的效果,投影后保证数据样本在新的子空间类间距离最大和类内距离最小,即样本数据在该空间中有最佳的可分离性。Fisher线性判别分析是最具有代表性的LDA 法。
4.多维尺度法
MDS是一种很经典的数据映射方法,其根据样本之间的距离关系或不相似度关系在低维空间里生成对样本的一种表示。MDS分为度量型和非度量型两种,度量型MDS把样本间的距离关系或不相似度关系看作一种定量的度量,尽可能的在低维空间里保持这种度量关系;非度量型MDS把样本间的距离关系或不相似度关系看作一种定性的关系,在低维空间里只需保持这种关系的顺序。
5.核主成分分析法
该方法对样本进行非线性变换,通过在变换空间进行主成分分析来实现在原空间的非线性主成分分析。根据可再生希尔伯特空间的性质,在变换空间中的协方差矩阵可以通过原空间中的核函数进行运算,从而绕过复杂的非线性变换。核方法对于不同的问题选择合适的核函数类型,不同的核函数类型反映了对数据分布的不同假设,也可以看作是对数据引入了一种非线性距离度量。
6.基于流型学习的方法
其基本思想是通过局部距离来定义非线性距离度量,在样本分布较密集的情况下可以实现各种复杂的非线性距离度量。具体方法有:
等容特征映射(IsoMap)--欧氏距离累加
局部线性嵌入(LLE)--近邻样本线性重构
拉普拉斯特征映射(LE)--邻域选取和样本间相似度表达
其他改进算法
《数据科学与人工智能》公众号推荐朋友们学习和使用Python语言,需要加入Python语言群的,请扫码加我个人微信,备注【姓名-Python群】,我诚邀你入群,大家学习和分享。
关于Python语言,有任何问题或者想法,请留言或者加群讨论。