【文献阅读笔记】图像识别与分类-技术圈

图像识别是利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术，是应用深度学习算法的一种实践应用。图像分类是根据图像的语义信息对不同类别图像进行区分，是计算机视觉的核心，是物体检测、图像分割、物体跟踪、行为分析、人脸识别等其他高层次视觉任务的基础。图像识别与分类在许多领域都有着广泛的应用。

一、垃圾图像识别及分类

研究背景：垃圾分类可以实现资源的回收利用，是解决垃圾处理问题的有效方式。传统的手工垃圾分拣的效率低、成本高，因此，如何将垃圾自动按类处理具有重要的研究意义。

[1].Engineering; Study Results from Ho Chi Minh City University of Technology Hutech Update Understanding of Engineering (A Novel Framework for Trash Classification Using Deep Transfer Learning)[J].Journal of Engineering,2020.

数据来源：TrashNet数据集和自制越南垃圾数据集（VN-trash dataset），该数据集由来自越南的有机、无机和医疗废物三个不同类别的5904幅图像组成。

数据处理方法：选择ResNext架构作为应用迁移学习的基础模型，修改了原始ResNext-101模型，在全局平均池层之后添加了两个完全连接的层。输入图像的被归一化为0和1之间的值。在训练和测试阶段，通过水平翻转和随机裁剪方式，进行数据增强处理生成更多的图像。在训练阶段，为每个特定的废物类别呈现的输入图像被输入到我们建议的体系结构中。在最后一层，选用softmax函数的对数作为分类器，Adam作为优化器。在TrashNet数据集和VN-trash数据集60%的图像作为训练集，20%作为验证集，20%作为测试集。选择Desenet121_Aral、RecycleNet和ResNet_Ruiz模型作为对比试验，验证所设计模型的有效性。

研究结论：DNN垃圾分类器在垃圾网和虚拟垃圾数据集上的准确率分别为94%和98%，在这两个实验数据集上均优于现有的垃圾分类方法。

与同类研究相比优缺点：提供了两个实验数据集，一个基于公开数据集，一个自制数据集，使模型训练更具泛化性。但是对图像的分割并没有针对性，图像背景比较平衡，未考虑不平衡背景下的图像分类。

文献阅读价值：开发了用于垃圾分类的深度神经网络模型DNN-TC，对ResNext模型的改进，提高了预测性能。

[2]Bobulski Janusz, Kubanek Mariusz, Yang Miin-Shen. Deep Learning for Plastic Waste Classification System[J].Applied Computational Intelligence and Soft Computing,2021,2021.

数据来源：WaDaBa数据集，包括聚酯（PET）、聚乙烯（PE-HD）、聚苯乙烯（PS）、聚丙烯（PP）四类垃圾图像。

数据处理方法：对PET图像旋转24°、PE-HD图像旋转6°、PS图像旋转5°、PP图像旋转7°对图像进行增强，获得33000张PET图像，36000张PE-HD图像、37440张PS图像，3380张PP图像。对图像进行分割，得到尺寸为120×120和227×227像素的输入图像。构建两个卷积神经网络，第一个基于AlexNet网络构建，包含23层，第一个卷积层大小为11×11，输入图像大小为227×227；第二个神经网络为自己构建的网络结构，包括15层，第一个卷积层由64个大小为9×9的卷积核构成，输入图像大小为120×120。学习率初始值设为0.001，每4次迭代减少一次，借助Matlab实现模型训练与测试。90%数据用来训练，10%数据用来测试模型。对比文章所设计模型与AlexNet模型以及MobileNet v.1、MobileNet v.2模型的效率。

研究结论：15层网络对于120×120像素的图像比23层网络对于227×227像素的图像具有更好的性能，而且时间短，但效率低于其他神经网络模型。

与同类研究相比优缺点：所设计的卷积神经网络结构与其他模型相比规模小得多，但同时也损失了一部分效率。

文献阅读价值：提出了一种可应用于便携式设备的废物识别技术，有助于解决城市塑料废物问题。

[3]Hanxiang Wang,Yanfen Li,L. Minh Dang,Jaesung Ko,Dongil Han,Hyeonjoon Moon. Smartphone-based bulky waste classification using convolutional neural networks[J]. Multimedia Tools and Applications,2020,79(prepublish).

数据来源：从Yahoo，Bing，Google， Baidu， andNaver网站采集到95类图像数据69737张。

数据处理方法：所有图像数据储存为224 × 224的彩色图像。90%图像作为训练集，10%作为测试集。在训练阶段选择VGG-19、ResNet50和Inception-V3网络进行参数训练，对比三个网络的性能，选择最优性能的网络VGG-19。对VGG-19进行微调：预训练模型的所有卷积层都被初始化，并且前几个卷积层的参数被冻结。在汇集层和最后一个卷积块的卷积层之间增加两个卷积核大小为3×3的卷积层。第五个卷积块中的卷积层数从4变为6，在两个全连接层之间添加批量标准化层。采用基于低价敏感直接学习法和集成学习法的三种方法处理图像数据不平衡问题：通过设置权重参数来减少不平衡数据的影响，被称为CW_VGG19；从VGG-19模型中提取的特征分别被馈送到XGBoost分类器(XGB_VGG19)和LightGBM分类器(LGB_VGG19)来处理不平衡数据，对比三种方法的性能，选择LGB_VGG19方法。进一步测试原始VGG-19、微调后的VGG-19和LGB-VGG19的性能，并在垃圾网数据集上与DNN-TC模型进行比较。最后基于Kaggle数据集将不同CNN架构，包括VGG-16、ResNet、Mobile-Net、Inception-Net和Dense-Net进行对比。

研究结论：微调VGG-19是收集数据集的最佳模型，精度为86.19%；LGB_VGG19模型和XGB_VGG19模型比CW_VGG19模型相对稳定，随着不平衡率的增加，LGB_VGG19模型的AUC值高于XGB_VGG19模型。至于运行时间，LGB_VGG19型号比其他型号快得多。

与同类研究相比优缺点：数据集图像种类丰富，但最终的VGG-19模型由于参数多，对计算机内存的要求更高。而且在训练采集的数据集之前，由于采集的数据集较大，对背景复杂的图像没有进行图像预处理操作，对识别结果有影响。

文献阅读价值：选用多种方法解决图像数据不平衡问题，为数据不平衡的处理提供了思路。

[4]王莉,何牧天,徐硕,袁天,赵天翊,刘建飞.基于YOLOv5s网络的垃圾分类和检测[J].包装工程,2021,42(08):50-56.

数据来源：实验自制了一个垃圾数据集，包括纸盒、塑料瓶、易拉罐、玻璃瓶、药瓶、电池、塑料袋、废纸、衣服、砖头、水果和蔬菜12类垃圾。

数据处理方法：采用数据增广的方式将样本个数增至原来的4倍，用labelimg工具对图片中垃圾物体进行了标注，按照8∶2 的比例将数据集划分为训练集和测试集。实验的运行环境为CPU为Intel i77800X，GPU为GeForceGTX 1080ti，内存为16G，操作系统为ubuntu16.04，安装CUDA9.0库文件，开发语言为Python，Pytorch框架。Coco和Voc数据集上的训练结果初始化Yolov5s的网络参数，参数训练采用SGD优化算法，参数设置Batch为32；最大迭代次数为400；动量因子为0.9；权重衰减系数为0.0005。采用余弦退火策略动态调整学习率，初始学习率为0.01。采用GIOU Loss作为损失函数。绘制损失函数图，将Yolov5s和Yolov3在自制垃圾数据集上进行实验对比，验证实验方法的有效性。

研究结论：基于 YOLOv5s 网络的垃圾分类检测模型在不同光照、视角等条件下，检测准确率高，鲁棒性好、计算速度快，有助于促进垃圾处理公司实现智能分拣，提高工作效率。

与同类研究相比优缺点：自制的垃圾分类数据集考虑了不同光照、角度、距离和遮挡情况，使模型更具普适性。

文献阅读价值：通过研究基于视觉的垃圾检测与分类模型，实现对垃圾的自动识别和检测。

[5]康庄,杨杰,郭濠奇.基于机器视觉的垃圾自动分类系统设计[J].浙江大学学报(工学版),2020,54(07):1272-1280+1307.

数据来源：数据集来源于网上和现实生活拍照，共14种物体4168张图片。

数据处理方法：利用设计好的垃圾分类硬件系统将所有垃圾分为可回收和不可回收两大类，其中训练样本占60%，即2500张；验证样本数量占20%，即834张；测试样本占20%，即834张。以Inception v3为特征提取网络，优化算法使用RMSprop替代SGD，使用LSR方法降低过拟合，采用独热编码的形式进行模型训练。使用2个1×n和n×1的卷积核取代n×n的卷积核，在模型的全连接层进行批标准化操作。采用迁移学习方法对 Inceptionv3模型进行重训练。基于Image Net数据集进行预训练，训练批次大小为32，激活函数选择ReLU函数，学习率为0.001得到预训练模型；将Inception v3全连接层前的所有卷积层参数保留不变，将最后的全连接层的输出由原来1000变为14（14中垃圾种类），在自制垃圾数据集上继续训练，得到垃圾识别分类模型。在公共数据集cifar-10上进行验证，将Inception v3模型与当下较流行的LeNet、Alex Net、Vgg和ResNet模型进行对比，进行105次迭代训练。训练完成后比较各模型的准确率和损失值。

研究结论：系统能够有效地进行垃圾种类的识别和完成垃圾的分类回收。

与同类研究相比优缺点：以研究设计多箱体垃圾桶或者其他结构的垃圾回收装置，满足更多目标类别的分拣需求。

文献阅读价值：提出基于机器视觉的垃圾自动分类系统，设计垃圾分类的硬件系统，该系统可以满足可回收和不可回收垃圾分类的要求。

[6]和泽.基于迁移学习的垃圾分类研究[D].宁夏大学,2020.

数据来源：数据集使用华为云的公开数据集，该数据集包括可回收物、厨余垃圾、有害垃圾和其他垃圾四个大类，每类分为若干小类，共40个类别14802张图片。

数据处理方法：首先通过标注新数据的方法增加4100张图片，增加了少类别样本数量。使用Keras提供的ImageDataGenerator方法对样本数量在300张以下的类别数据进行随机几何变换进行数据增强。使每个类别的样本数均在300张以上，数据集的各类别样本数据趋于平衡。将数据集进行9：1拆分，90%的样本当作训练集，10%的样本当作测试集进行训练。采用MobileNetV2模型，设置相同的数据集和参数，进行三组预训练对比实验：随机权重分类器对权重随机初始化，并进行训练；训练全连接层分类器对模型卷积层冻结，训练全连接层；微调分类器冻结模型的前128层，训练其余的卷积层和全连接层。每个实验训练过程中都迭代200次，采用AdamOptimizer优化函数，学习率设置0.0001，在分类层使用softmax层作为分类器，损失函数使用多分类交叉熵损失函数。使用微调模型的迁移学习方法，采用VGG16、ResNET50与MobileNetV2进行模型对比实验，采用100张图片进行推理实验，并用平均值计算单张图片推理时间。

研究结论：三个分类器分类效果最好的是微调分类器，最差的是随机权重分类器，训练全连接层分类器是处于中间的性能，MobileNetV2模型相对于VGG16、ResNET50模型在移动和嵌入式等便携式设备上做了明显的优化，提升了模型精度且降低了存储空间的要求。最后使用训练好的MobileNetV2模型对垃圾进行分类。

与同类研究相比优缺点：分别从预训练模型三种策略和不同模型之间进行对比，基于微调分类器的MobileNetV2模型更具说服力。但是研究所获取的数据集偏少且类别不平衡。

文献阅读价值：以迁移学习为基础提出了基于轻量型网络MobileNetV2的垃圾分类算法和基于迁移学习的移动端垃圾分类方案，解决了垃圾类别庞杂和垃圾分类难的问题。

[7]袁建野,南新元,蔡鑫,李成荣.基于轻量级残差网路的垃圾图片分类方法[J].环境工程,2021,39(02):110-115.

数据来源：数据集由中国科学院自动化研究所智能服务机器人实验室所提供，共收集了2400张垃圾图片信息。训练集共1920张，每类分别为320张，测试集共510张，每类分别为85张，训练集和测试集总共分为6类。

数据处理方法：以ResNet50为基础进行优化构建轻量级网络，提出最大平均组合池化替换ResNet50的池化层，用深度可分离卷积代替ResNet50中Bottleneck的3×3标准卷积。Mode数量一共4个，Mode数设置为［1，1，1，1］，每个Mode的结构都是1×1、3×3、1×1的结构，其中3×3的卷积核用深度可分离卷积替换。实验batch size设置为32，学习率设置为0.01，每经过一次步长为5时，学习率变为之前的95%，训练完成迭代100次。对不同的池化层以及不同模型进行对比。

研究结论：提出的最大平均池化轻量级网络使得网路达到参数量小、计算量小、内存消耗小，运行时间短的目的。

与同类研究相比优缺点：提出的轻量级残差网路参数更加简化，但是测试集510张，实际操作测试集只利用了1张，测试集应用数据较少。

文献阅读价值：提出的轻量级网络适用于移动端嵌入式设备的垃圾分类系统应用。

[8]董子源.基于深度学习的垃圾分类系统设计与实现[D].中国科学院大学(中国科学院沈阳计算技术研究所),2020.

数据来源：单帧图像垃圾检测：华为公开数据集（国内唯一公开数据集），共14683张垃圾图像和对应的分类标签，加上实地拍摄一些垃圾场景中的图片。

数据处理方法：单帧图像垃圾检测：将华为数据集按照不同的大类别和小类别进行组合，保存在相应的文件夹下。通过python手动标注图像中垃圾的位置信息，利用记录鼠标位置的相应函数，记录鼠标画取的垃圾外接矩形，并将矩形的四个顶点坐标记录在文本文件中。对数据集中不同小类的垃圾数据进行采样并标注，得到2000张不同种类的垃圾图像的数据标注，作为初始的检测网络训练数据集。通过第一轮的训练，得到了垃圾检测模型初始结果。使用初始模型对未经训练的数据集中其他图像进行检测，得到垃圾的初始预测位置，并修正检测错误图像的检测框作为图像中目标位置的标签，得到初始训练后的扩充数据集。用华为数据集对ResNet101、Inception v3和VGG16主干网络进行评估，选定ResNet101网络作为垃圾检测的基线网络。在分类阶段，将数据增强后的图像按4：1的比例分为训练集和测试集，选用ADAM优化算法训练模型动量系数为0.9，共设50个迭代周期，初始学习率设为0.01，每隔10个迭代周期学习率衰减0.1倍，一阶矩估计的指数衰减率为0.99，二阶矩估计的指数衰减率为0.999。在ResNet101网络的不同的Bottle Neck位置仅插入空间注意力模块、仅插入通道注意力模块、插入特征融合模块分别进行对比试验，对模型的注意力模块、通道注意力模块、特征融合模块分别进行评估。以GCNet作为主干提取网络并入到SSD作为垃圾检测网络的基础，与加入特征融合与注意力机制的ResNet101网络相结合。实地拍摄了一些垃圾场景中的图片（手动绘制检测框）与华为数据集作为检测任务的训练集和测试集。使用批量32来训练模型，使用0.0001的权重衰减和0.9的动量，SGD优化器，设置Dropout为0.8，在每个conv模块激活函数后添加BatchNormalization层以防止过拟合以及加快网络收敛。在相同测试集上对DSSD算法进行评估与改进的SSD算法进行对比。

研究结论：加入了注意力机制、特征融合机制以及残差预测模块的SSD在小目标方面，效果明显好于SSD与DSSD算法，检测速度方面也明显好于DSSD，稍微低于SSD。

与同类研究相比优缺点：针对样本集中类内垃圾形态差异大，背景变化大，不利于分类的情况，本文在分类网络中加入了空间注意力与通道注意力机制，有效地提升了分类准确率。

文献阅读价值：提出了对ResNet101 加入注意力机制和特征融合机制的改进方法，更好地提取到了垃圾图像中的有用信息，成功地解决了图片中类内差异大不利于分类的问题。

[9]陈非予,杨婷婷,蒋铭阳.基于深度学习技术的生活垃圾分类模型设计[J].电子元器件与信息技术,2020,4(07):94-96.

数据来源：垃圾图像数据是在TrashNet数据集的基础上增加手机拍照以及网络搜索所得，共确定3727张。

数据处理方法：采用Inception-v3模型在大型图像分类数据集ImageNet训练的参数模型。特征提取模型采用预训练模型的网络结构和参数，通过输入并处理一张垃圾图像，提取图像2048维向量特征，经softmax回归完成垃圾图像分类。训练数据为数据集中的80%，另20%数据作为测试验证数据集。在训练中，设置超参ECHO为50，即迭代训练训练数据集50次，每次选取其中16张图像进行训练，在每次训练的图像输入阶段，将所选图像进行数据增强处理，初始化学习率为0.001。

研究结论：分类正确率可以达到95.3%，证明了该模型对于实现垃圾分类的有效性。

与同类研究相比优缺点：垃圾图像涉及种类只包含塑料、金属、纸板、废报纸、玻璃、以及废料六类垃圾图像，数据类别较少。

文献阅读价值：模型通过数据增强方法降低了图像成像要求，对光照、距离、大小不敏感，具有相当高的鲁棒性和泛化能力。

[10]吕程熙.基于深度学习实现自动垃圾分类[J].电子制作,2019(24):36-38.

数据来源：数据集共包含10类物品的图片共2000张，每一类200张。

数据处理方法：1800张为训练集，200张为测试集。每一类共180张为训练集，20张为测试集。将训练集与测试集的输入图片随机裁减成32×32×3大小的图片，将图片信息归一化。建立基于卷积神经网络的垃圾分类分类器，学习率为0.01，batch_size为5，对比深度神经网络和卷积神经网络的测试结果分类准确度。进一步对数据集进行二分类，划分为可回收利用和不可回收利用，由十分类变为二分类再次进行实验。

研究结论：CNN模型的效果要比DNN 模型的效果好。从十分类变为二分类，模型选择正确的概率大大加大，使得准确率升高。

与同类研究相比优缺点：对比DNN与CNN分类识别效果，证明CNN对垃圾分类识别应用效果更好。但是针对物品的不同部位属于不同类型的垃圾，还需要增加预识别功能。

文献阅读价值：利用算法对图像识别可以大大提高垃圾分类的效率，为人们的生活带来便利。

[11]高明,陈玉涵,张泽慧,冯雨,樊卫国.基于新型空间注意力机制和迁移学习的垃圾图像分类算法[J].系统工程理论与实践,2021,41(02):498-512.

数据来源：“华为云人工智能大赛垃圾分类挑战杯”竞赛提供的数据集，共包括14000余张垃圾图片。

数据处理方法：将图片尺寸统一处理为224×224像素。将数据集随机划分为训练集、验证集与测试集，训练集中划分为包含14372张图片，验证集与测试集各包含215张图片。选择EfficientNet-B5、ResNet50、DenseNet-169网络架构分别对华为垃圾分类数据集和ImageNet数据集进行无迁移学习与有迁移学习的训练，其中预训练权重均由Keras库提供，最后选择EfficientNet-B5作为GANet中的主干网络结构。运用以EfficientNet-B5为主干的GANet构架，尝试对提出的新型的像素级空间注意力机制PSATT的基础结构微调后的模型进行有效性验证，选择出性能最好的PSATT结构。将GANet结构的注意力模块分别换成PSATT、Squeeze-and-Excitation block、Non-Local block与注意增强卷积在ImageNet数据集上进行多次训练对比。通过训练策略消融实验、迭代延长实验和交叉验证实验来检验GANet架构在训练过程中是否出现过拟合情况。依次用ResNet50和DenseNet-169架构替换GANet主干结构中的EfficientNet-B5进行迁移学习，验证PSATT在不同网络架构上的适用性。将输入图片尺寸设为456×456，借助该比赛的自动化测试系统对GANet进行云端评估，测试集为赛方未公开的4000张盲测图片。对于GANet模型的训练中选用RAdam优化，损失函数选择标签平滑正则化+Focal loss，用在OCL基础上提出的阶梯形OneCycle控制学习率，在训练的最后几个轮次，对于权重平滑选择进行SWA处理。

研究结论：基于PSATT机制的GANet在细粒度垃圾图像分类问题中，整体准确率相较对比方法得到了显著提升。

与同类研究相比优缺点：改进的阶梯形OneCycle学习率控制方法和RAdam优化方法的结合使用加快收敛速度，缩短实验周期；运用标签平滑和Focalloss缓解样本不平衡问题；优化方法与阶梯形OneCycle学习策略的结合使用缓解了模型收敛阶段的不稳定性。但是图像数据集在不同光照条件、不同终端采集的图像存在格式、噪音、分辨率等差异。

文献阅读价值：针对问题特点，提出了一种新型的像素级空间注意力机制，建立了一套端到端的面向细粒度垃圾图像分类的迁移学习架构GANet。

[12]王洋.垃圾分类数据的机器学习方法研究[D].黑龙江大学,2020.

数据来源：选择了来自Kaggle网站上提供的包括湿垃圾、可回收物两类垃圾的图像数据，包含训练集22564张，测试集2513张，练集中包含12565张湿垃圾图像，9999张可回收垃圾图像；而测试集中包含1401张湿垃圾图像，1112张可回收垃圾图像。

数据处理方法：预处理：对图像进行灰度化处理，选择将所有图像尺寸设为64×64将图像尺寸归一化。运用python从两类垃圾图像中分别提取颜色特征和纹理特征作为分类依据。选用灰度直方图作为图像的颜色特征，将灰度直方图和图像标签作为KNN和SVM算法的输入。对图像的LBP和HOG特征向量进行PCA降维以提高计算机运行速度，保留原数据95%的信息提取出降维后的LBP特征和HOG特征。传统机器学习算法：使用sklearn库中的KNeighborsClassifier函数搭建KNN模型，距离定义为欧式距离，分别以GH，HOG，LBP特征向量导入模型并分别建模，参数𝐾分别设置为5，10，15，...，50，运行10次KNN模型，将模型的5折交叉验证最高准确度定最终准确度。SVM模型核函数选RBF径向基函数，将GH，HOG，LBP三种图像特征算子分别导入模型并分别建模，SVM函数的初始参数设置为惩罚项𝐶=1，2，…，10，松弛变量𝛾=0.1，0.2，…，1.0，将模型的5折交叉验证最高准确度定最终准确度。对比KNN与SVM分类结果。卷积神经网络：使用基于Python的tensorflow框架搭建设定的简化版轻量型VGGNet（mini-VGG）。将输入卷积神经网络的图像尺寸设定为64×64的三通道图像，Batchsize设为64，设置epoch次数为50，损失函数定义为交叉熵，验证集占测试集比重为30%。

研究结论：mini-VGG模型的分类准确度明显地高于其他两个传统机器学习算法，但模型如果特征选取合适，传统机器学习算法在图像分类领域中的分类准确度不弱于深度学习。

与同类研究相比优缺点：垃圾图像中不同种类垃圾图像数量分布较均匀，避免了图像数据不平衡所带来的问题。

文献阅读价值：创造性地使用了一个精简版的Mini-VGG结构，大幅度减少了模型训练的参数，极大提高了模型运行的效率。

[13]齐鑫宇,龚劬,李佳航,何建龙.基于深度学习的垃圾图片处理与识别[J].电脑知识与技术,2021,17(09):20-24.

数据来源：含果皮，纸箱，电池，厨余垃圾，灯泡，书本，鞋子，废衣服等25类的自定义数据集。

数据处理方法：数据集在每个分类含10000张照片，选取其中5000张作为训练集，其余的作为测试集。更改数据集中图像格式为jpg格式，将图片尺寸裁剪为300×300格式。将图片通过裁剪，反转，镜像增加数据集的数量。采用均值滤波对图像去噪。在ResNet101主干网络中，改变其原有的Relu激活函数，采用改进的Elu函数。在测试模型训练性能之前，首先选取两张图片对卷积神经网络模型对图片特征提取的性能进行测试，对比新模型与原模型的准确率与损失函数。对十类垃圾分别各选取100张随机图片作为识别对象应用于模型中进行模型的识别测试。

研究结论：新模型在训练精度与速度相比于原ResNet101模型有明显的提高。训练结果相比原模型提前1500步达到100%识别以及提前5分钟；识别准确率提高10%。

与同类研究相比优缺点：在ResNet101基础上提出了一种新型模型，极大提高了模型的训练速度以及识别精确度。

文献阅读价值：为未来实现人工智能垃圾分类提供图像识别模型基础。

[14]Sha Meng,Meng Sha,Zhang Ning,Ren Yunwen. X-DenseNet: Deep Learning for Garbage Classification Based on Visual Images[J]. Journal of Physics: Conference Series,2020,1575(1).

数据来源：GitHub的trashnet数据集，共有2527幅彩色图像，分为6类垃圾。

数据处理方法：图片尺寸调整为512×384。首先通过剪切旋转、翻转等方法对数据集中的原始图像进行数据增强操作。将数据集中90%和10%的图片相对作为训练集和测试集。在Xcepion的基础上使用Dense模块来实现功能重用和融合。将150×150×3的垃圾图像作为输入，通过Xception提取图像特征，通过32个卷积核（3×3）和64个卷积核（5×5）转置卷积以增加特征的大小和数量作为下层输入的特征图x₀。在Dense模块采用ReLU激活函数，32个1×1卷积核和32个3×3卷积核，获得特征图x₁，裁剪x₀、x₁，作为Dense模块的下一层输入，以此类推，Dense模块之间用1×1卷积层和一个2×2最大池化层连接。第三个Dense模块的输出与3×3和5×5卷积核交替进行转置和卷积扩展特征的数量。最终输出经过全连通层映射到6个神经元，对应垃圾的6个分类。训练过程中每批32个，优化器为SGD，动量为0.9，初始学习率为0.001，损失函数为交叉熵函数。数据集中的248张图片被用作测试集。经过数据增强处理，测试中每批数据40张彩色垃圾图片。在数据集上进行X-DenseNet和AlexNet、ResNet50、InceptionV3、Vg16以及Vg19的对比实验。

研究结论：设计的基于深度卷积神经网络的垃圾分类模型识别准确率高于其他先进的图像分类网络。

与同类研究相比优缺点：通过“获取数据集-预处理数据-建立X-DenseNet模型-训练和测试模型”的过程进行实验，模型在测试集上的准确率高达94.1%，超过了一些经典的分类网络。

文献阅读价值：提出的基于视觉图像的X-densente垃圾自动分类模型能够有效减少人工投入，提高垃圾回收率。

二、医学图像识别

[15]韩龙飞,李婉,曾曙光,何慧灵. Bank Card Number Intelligent Identification Based on Digital Image Processing Technology[J]. Journal of Image and Signal Processing,2016,5(3).

研究背景：现有较为成熟的卡号识别系统仅限于磁条读取，磁条的寿命有限，刷取一定的次数后会出现不同程度的磨损。采用图像处理光学方法非接触式测量，对卡面几乎没有任何损耗，可以无限次、大批量的对卡号进行提取统计，同时解决了现有的银行卡号信息传输手动输入工作量大的问题。

数据来源：样本图片来源分为网上随机搜索和人工手动拍摄两种。

数据处理方法：借助matlab图像预处理：对三维彩色图像灰度化处理，将灰度化的图像中包含卡号信息的区域反相，使卡号信息变为白色。文采用Canny算子将卡的外边框提取出来，进行膨胀防止断线，然后对封闭线进行填充。填充后的图片与反相后图片相乘，将背景变为全黑，排除背景干扰。对去除背景的图像进行二值化处理并去除噪点。字符定位与提取：通过膨胀图像，将靠得较近的字符连通成一个区域，将每个连通区域的原始图片进行识别预处理。字符分割：采用边缘提取图像与原图像相加的方法来增强图像效果，利用旋转函数对增强后的图像进行水平矫正。对图像区域化标记，设定图像所有小区域中最大高度high_max 的二分之一为阈值，大于阈值则分割提取，即可完整保留目标数字，去除干扰部分的小区域，实现字符分割。字符识别：对分割后的图像进行归一化处理，将切割后的第一幅字符图像与模板0—9的图片取异或后1的数量即为图片与数字模板的误差值。采用sort函数排序后找出其中值最小的，取它对应的模板图像为其目标图像匹配图，输出匹配图像所对应的0—9之间序号数保存。在所有的数字区域中筛选出银行卡号码，按照顺序保存的银行卡数字信息，转成txt格式输出。

研究结论：对中国农业银行、中国银行、中国工商银行等几大银行的银行卡进行了测试，发现中国农业银行的卡号识别率最高，达到了97.5%；各类银行卡的综合识别率达了85.6%。影响银行卡卡号识别率和识别速度的主要因素有卡面背景的复杂度、照片质量、卡号数字本身的质量等。

与同类研究相比优缺点：在进行数字图像识别同时还分析了影响识别准确率的因素，为识别系统优化提供思路。但是研究收集数据较少。

文献阅读价值：该技术有望取代传统的磁条读取卡号的方式，形成一种新的无接触的卡号读取方式。

[16]高雷鸣,肖满生,向华政.基于深度学习的肺部肿瘤图像识别方法[J].计算机测量与控制,2020,28(10):160-164.

研究背景：鉴于浅层卷积神经网络难以获取图像深层特征、易过度拟合导致分类效率和精度低的问题，设计一种肺部肿瘤图像的深度学习识别模型。

数据来源：肺结节数据集LIDC，每个病例都包含50—250张肺部CT图像和一个注释文件。

数据处理方法：将肺部图像进行归一化预处理操作，压缩为227×227，将样本进行排序并按照一定的数量将肺部CT图像划分为训练样本70％和测试样本30％。将肺部肿瘤图像水平、垂直翻转、转动135°／270°、缩放比例、加入高斯噪声、裁剪、移位等操作，将已有的训练样本集扩充为新的样本集。使用准确率ACC、敏感性SNR、特异度SPR、AUC面积和训练时间来判定该分类系统的性能。在每个卷积层和神经元激活函数之间引入批量归一化层，对输入数据首先进行预归一化处理，代替原网络中的局部归一化操作，选择最大池化操作，在全连接层中加入Dropout并采用ReLU作为激活函数，通过三层全连接层和Softmax分类器实现肺部肿瘤图像的分类。在整个网络训练之前，首先利用ImageNet数据集进行预训练，损失函数变化速率设置为0.01，迭代次数设为5000，用训练好的参数作为模型训练的输入值。将所设计的模型与LeNet-5、ResNet、AlexNet、VGGNet、GooLeNet模型进行比较。

研究结论：所设计的方法在网络收敛速率和分类精度方面取得更优性能，比基于AlexNet卷积神经网络分类精度提高5.66％以上，且具备良好的健壮性。

与同类研究相比优缺点：在利用迁移学习和样本扩充基础上，并在网络每层数据输入前预先归一化处理，防止传统特征提取和分类的限制性，减少了高频特征对网络模型的影响。

文献阅读价值：为医生判断提供良好的协助作用。

[17]孟子尧,陈斯佳,吕天予,张志刚,王筱霞,盛斌,毛丽娟.基于深度学习的肾小球病理图像识别与分类[J/OL].计算机辅助设计与图形学学报:1-10[2021-06-01].

研究背景：病理切片中肾小球的识别和分类是诊断肾脏病变程度和病变类型的关键，为解决肾小球的识别和分类问题，设计了一个基于深度学习的完整的肾小球检测及分类框架。

数据来源：共制作了4个数据集，分别是单一肾小球数据集、肾小球九宫格数据集、目标检测数据集和WSI数据集，共11幅原始切片，根据11幅原始切片制作出数据集图像数量分别为8，33，73，85，106，124，181，275，404，610，828。

数据处理方法：将单幅切片划分为左右2个区域，左侧区域中裁取出的图像作为训练集，右侧区域裁取出的图像作为测试集，共2747幅图像及其对应的标注文件。采用旋转、色彩抖动和mixup结合水平翻转、垂直翻转和逆时针旋转90°对原始图像进行数据增强，扩充数据集。在YOLO的检测方法，提出了名为区域网格网络RGNet的检测窗生成方法，检测窗生成应用WSI数据集。采用Faster R-CNN对肾小球定位，实现肾小球检测。肾小球检测数据集随机划分为训练集2247幅图像和验证集500幅图像。训练和测试时都不使用只出现30%面积的肾小球。将NMS算法改进为NMS-Lite算法在肾小球检测后进行肾小球合并。将肾小球粗分类为3类. 正常肾小球和轻度、中度系膜增生的肾小球，使用CNN进行粗分类，然后将重点放在特殊的类别和区分度小以致难以分类的类别上进行细分类。

研究结论：肾小球分类在验证集上的准确率分别为粗分类为97.6%，正常、轻度和中度细分类为66.7%，硬化和新月体分类为88.3%。

与同类研究相比优缺点：优化了传统的NMS算法，优化后的NMS-Lite算法对于合并肾小球检测结果速度更快，准确度更高。但是原始数据量较少。

文献阅读价值：肾小球检测方法在测试集上取得了与同类方法可比的精度，且在一定程度上解决了相似类别的肾小球难以区分的问题。

[18]马少龙.基于深度学习技术-Faster R-CNN对颈脊髓损伤及颈间盘疾病核磁图像的识别检测[D].吉林大学,2020.

研究背景：颈椎间盘突出主要引起脊髓的形态变化为主，脊髓损伤则一般引起脊髓内信号的改变。医院具有海量的影像学数据的优势，随着人工智能的研究火热，各个科室也都进行了大数据+人工智能模式尝试应用，并取得了满意的效果。

数据来源：在2013年1月至2018年12月期间，在吉林大学中日联谊医院收治的颈脊髓损伤、颈椎间盘退变性疾病，以及门诊患者的颈椎核磁作为这次实验的数据集。

数据处理方法：根据纳入排除标准筛选数据集，包含1510位患者，1210名作为训练集，300名作为交叉验证集。对原始图片进行批量处理，读取图片存放目录、图片命名；将所分类的MRI图片进行标签分类，其中，间盘突出组、损伤信号异常组需要标记，正常的不用标签；将图片尺寸统一为600*800，最后标签提取，形成数据库。预测阶段时，采用水平翻转对测试集做数据增强，将数据扩大为10倍，图片规格为600*800*3，取原始图像和翻转图像的分类概率（Softmax）作为最终得分。采用Faster R-CNN以及VGG-16和Resnet50对颈脊髓损伤以及颈椎间盘突出的上的核磁损伤区域进行识别预测，经过300名验证集合的模型验证和通过迭代更新最优参数后，并通过测试集来对训练好的模型进行检测并得到相应的预测准确率。选择mAP对模型效率进行评价。预测阶段选用500张图片作为测试集来验证并比较以VGG-16、Resnet50为骨架的网络模型效果。

研究结论：应用Faster-RCNN算法并以VGG-16以及ResNet50为骨架的神经网络模型是能够识别检测颈椎核磁间盘突出以及脊髓信号改变的常见疾病。以ResNet50为骨架的网络架构模型较以VGG-16为骨架的网络架构模型而言预测效果更佳，检测速度更快。

与同类研究相比优缺点：采用了深度学习中识别检测任务的方法对常见的颈椎疾病进行判定预测，其结果也达到了同期学术期刊报道的效果。

文献阅读价值：利用深度学习技术对颈椎常见的疾病进行识别检测的成功，为颈椎疾病核磁+深度学习模式奠定了理论性基础。

[19]连先峰,刘志勇,张琳,韩雨晨,史国梅.一种基于深度学习的视网膜病变图像识别方法[J].计算机应用与软件,2021,38(01):179-185.

研究背景：解决医学上糖尿病性视网膜病变图像人工识别困难、精度差等问题，提出一种基于多特征融合的卷积神经网络识别方法。

数据来源：初始数据来自一些大学以及竞赛平台，主要包含5 个数据集，共计眼底图像 30571 幅，其中正常图像13615 幅，病变图像16956幅。

数据处理方法：使用Open CV对眼底图像作统一化和增强化处理。以VGG-16为基础模型，采用add方式的特征融合对各卷积层上提取的特征进行融合。各层激活函数采用ReLU函数，输出层采用Softmax函数，模型中有5个Convolution层、5个Maxpool层、1个FeatureFusion层、2个FullConnection层和1个Softmax层，输入图像大小为64×64×3。其中Cov1、Cov2、Cov3、Cov4、Cov5中的Filter个数分别为64、128、256、512、512。Filter尺寸为3×3×3，Filter stride为1。Maxpool层中Filter尺寸为2×2×3，Filter stride为2。2个Full connection层的维度分别为8192和4096。Softmax层的输出分为2类，分别代表正常眼底图像和病变眼底图像。在模型训练过程中使用Dropout技术防止过拟合。最后与Alex-Net、Google-Net、ＲesNet-101等常规算法及Compact-Net算法进行对比试验。

研究结论：基于多特征融合的深度学习框架图像识别系统在数据集上的平均识别精度达到94.23%，相较于Alex-Net、Google-Net、Compact-Net、ＲesNet-101等模型分别提高了10.56%、7.80%、6.01%、0.02%。

与同类研究相比优缺点：在VGG-16网络结构的基础上，通过融合各卷积层上的特征，使模型对病变眼底图像的细微特征更加敏感。但是由于实验数据集使用的是RGB格式的图像，以致色彩对图像识别造成了一定的影响。

文献阅读价值：初始数据集经扩充、统一化处理成为新的数据集。在新数据集上训练模型，使模型获得良好的鲁棒性和泛化能力。

[20]焦龙,杨翊,何羽,刘珂,成斌杰.基于深度学习的口腔癌图像识别研究[J].电脑与信息技术,2021,29(02):60-64.

研究背景：口腔癌是湖南省发病率最高的恶性肿瘤之一，基于图像的口腔癌识别能够为医生尽早诊断提供有效医疗辅助手段。

数据来源：Github。

数据处理方法：首先对数据样本进行数据增强，使用了在Image Net数据集上预训练好的著名网络进行迁移学习，在其后接若干层的全连接层。在全连接层中使用的激活函数为RELU，最后分类层神经元数为2，使用softmax激活函数。本实验已经将在Image Net上预训练过的权重进行冻结，不再参与后续训练造成的神经元数值变动，只训练新增的全连接层。设置Learning Rate Scheduler用来动态调整学习率，设置ReduceLROnPlateau用来在训练停滞不前的时候动态降低学习率。选用优化器adam，损失函数categorical_crossentropy。轮次100。

研究结论：基于卷积神经网络的迁移学习模型可以很好地承担口腔癌分类任务。

与同类研究相比优缺点：模型设有大量神经元与已经训练完成的预训练网络来弥补数据集过少带来的过拟合问题，使模型更快速地收敛。但是所采用的原始图像数据量比较少，正负样本不均衡，存在一些干扰项。

文献阅读价值：利用大量神经元和已经训练完成的预训练网络来弥补数据集过少带来的过拟合问题，使模型更快速地收敛。

来源：统计家园

 End 

声明：部分内容来源于网络，仅供读者学术交流之目的。文章版权归原作者所有。如有不妥，请联系删除。