↑ 点击蓝字关注极市平台

作者丨宁欣

编辑丨极市平台

极市导读

该冠军方案是由威富视界有限公司&中国科学院半导体研究所高速电路与神经网络实验室团队提出，选用了EfficientNet作为主体框架构建的垃圾分类识别模型。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

高通人工智能应用创新大赛介绍
2021高通人工智能应用创新大赛由高通技术公司、高通创投主办，极视角、小米、中科创达、CSDN共同协办，TensorFlow Lite作为开源技术合作伙伴。

本届大赛将融合终端侧人工智能（AI）和边缘云技术，携手AI产业链合作伙伴为专注于Android应用程序开发、智能边缘的移动开发者及行业用户提供展示创意和成果的平台，推动5G时代下人工智能技术赋能的众多创新应用。

赛程中使用的高通神经网络处理引擎SDK将为开发者提供端到端的解决方案，使得算法模型可以在任何搭载高通骁龙移动平台的设备上运行，这不仅能够简化、加速AI应用程序的开发，还能更好地支持创新AI应用的落地。

大赛赛题包括两个赛道，赛道1是应用赛道，赛道2属于创新赛道，分别是表情识别、农作物病虫害识别、垃圾分类识别和手绘图像识别。

团队介绍

团队来自深圳市威富视界有限公司&中国科学院半导体研究所高速电路与神经网络实验室，成员分别为：宁欣、石园、姚浩、张倩、李爽，排名不分先后。

任务介绍 — 垃圾分类识别

实行垃圾分类，关注大众生活环境，是社会文明水平的一个重要体现，并已在诸多城市开始推广。本赛题使用手机摄像头，拍摄垃圾图片，通过AI技术对垃圾进行识别分类，有效提高垃圾分类效率，使垃圾分类更便捷。

参赛者需要根据图片给出对应的类别情况，其类别为有害垃圾_杀虫剂（Harmful Waste_Insecticide）、有害垃圾_电池（Harmful Waste_Dry battery）、有害垃圾_电池板（Harmful Waste_Battery board）等146种类别。数据集是由摄像头采集的现场场景数据，训练数据集包括28071张，测试数据集包括12010张。

评审标准

本赛道分为初赛阶段和决赛阶段。初赛阶段是进行线上算法开发，并使用高通SNPE工具转换得出算法得分；决赛阶段是通过演示算法应用视频和答辩PPT，评委依据规则进行评分，初赛成绩和决赛成绩各占40%和60%。

初赛得分采取算法精度、算法性能值综合得分的形式，具体如下：

说明：算法精度取自算法模型标准测试成绩，算法性能值取自模型使用SNPE转换后的模型，在小米（含高通骁龙888芯片）手机DSP上跑出的性能值。

决赛评审规则具体如下：

威富视界&中国科学院半导体研究所团队荣获第一

赛题特点

1、数据分布差异大

数据集图片尺寸不一，相差较大。一方面，由于计算资源和算法性能的限制，大尺寸的图像不能作为网络的输入，而单纯将原图像缩放到小图会使得大图丢失大量细节；另一方面，训练数据总共有28071张，类别146类，平均每类192张图像，同一种类别外表形状差异较大，并且背景不一，这就给分类器造成巨大的挑战。

2、模型量化需选择SNPE

骁龙（SnapDragon）神经处理引擎SNPE是一个针对高通骁龙加速深层神经网络的运行时软件。SNPE支持Caffe、Caffe2、ONNX和Tensor Flow模型，训练的模型将转换为可加载到SNPE运行时的DLC文件。然后使用此DLC文件使用其中一个Snapdragon加速计算核心执行前向推断传递。

3、算法需落地App应用

我们一方面需要对算法精度和性能进行提升；另一方面我们要做好算法落地App的应用，保证App的核心功能可用，逻辑流程顺畅，架构合理，具备良好的可用性、易用性、稳定性、安全性、可运维性等特点。同时针对该赛题需从产品角度考虑商业价值、创新价值，使其与行业成熟方案相比有差异性、高价值创意，并具备广阔的市场和商业前景。

主要工作

算法研发：

1、主体框架选择

（1）精度方面：目前基于深度学习的分类网络框架常用的有Swin Transformer与EfficientNet，两者在精度方面处于相当水平，与其他算法相比具有竞争性，因此我们以两者为初定方案。比赛要求模型首先使用SNPE转换，然后在小米（含高通骁龙888芯片）手机DSP上运行，我们算法框架选用的是pytorch，模型转换SNPE之前，需将其转换为onnx格式，经实验，Swin Transform网络中torch.roll不支持onnx转换，因此我们选用了EfficientNet。

（2）速度方面：比赛需要考虑精度和速度，经多次实验，在权衡两者的情况下，我们最终选取EfficientNet-B0作为Baseline。

2、模型泛化

起初我们考虑到算法性能，我们仅尝试EffficientNet-B0进行模型训练。实验结果显示，模型分类效果不好。经分析，我们将上述问题归纳为以下两个方面的原因：

（1）EffficientNet-B0无论是网络宽度和网络深度相对都较小，学习能力相对较弱。同一种病症在不同植物上表现以及所处不同背景，容易对分类器造成混淆，从而产生分类错误。

（2）另一方面，训练数据总共有28071张，类别146类，平均每类192张图像，同一种类别外表形状差异较大，并且背景不一，使得不同类别的样本较少，模型学习共性特征较困难，造成模型泛化能力较差。

根据上述问题，我们进行了一些尝试：

首先，我们采用了粘贴、随机裁剪、mosaic、仿射变换、颜色空间转换等操作对样本进行增强，缓解过拟合问题，提高模型的泛化能力，增强模型的分类精度。

其次，从优化器层面来讲，我们尝试了SAM优化器。SAM优化器可使损失值和损失锐度同时最小化，并可以改善各种基准数据集（例如CIFAR-{10、100}，ImageNet，微调任务）和模型的模型泛化能力，从而为多个应用程序提供了最新的性能。另外， SAM优化器具有固有地提供了标签噪声的鲁棒性，与专门针对噪声标签学习的最新称称所提供的不相上下。