DeepLabv3：语义图像分割-技术圈

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

简介

使用深度卷积神经网络（DCNN）分割图像中的对象的挑战之一是，随着输入特征图遍历网络变得越来越小，有关小范围对象的信息可能会丢失。

图1.合并和跨步的重复组合会在输入遍历DCNN时降低要素图的空间分辨率

公式1.输出特征图y中位置i的公式，换句话说，图2中绿色矩阵中的正方形之一。x是输入信号，r是原子率，w是滤波器，k是内核

图2.使用3核的粗体二维卷积，粗率为2，没有填充。

作者调整一个名为output_stride的值，该值是输入图像分辨率与输出分辨率之间的比率。比较并结合了三种方法以创建最终方法：Atrous空间金字塔池（ASPP）。第一个是级联卷积，它只是相互进行的卷积。当这些卷积的r = 1时（即开箱即用的卷积），将抽取详细信息，从而使分割变得困难。作者发现，通过允许在DCNN的更深层块中捕获远程信息，使用原子卷积可以改善这种情况。图3展示了“原始” DCNN与级联DCNN的比较，其中r>1无规卷积。

图3.顶部（a）是规则的CNN，第二个（a）是级联的r> 1的atrous卷积，output_stride为16

第二种是多网格方法，即不同大小的网格的层次结构（请参见图4）。他们定义了一个multi_grid参数作为一组空率（r1，r2，r1），它们按顺序应用于三个块。最终原子速率等于单位速率和相应速率的乘积。因此，例如，在output_stride为16且multi_grid为（1,2,4）的情况下，块4（如图3所示）将具有三个卷积，比率为2*（（1, 2, 4）=（2, 4，8），

图4.多网格CNN架构

作者的主要贡献是修改了[5]中的Atrous空间金字塔池化（ASPP），该方法在空间“金字塔”池化方法中使用了atrous卷积，以包括批量归一化和图像级特征。他们通过在最后一个特征图上应用全局平均池来实现此目的，如图5（b）所示。然后他们将结果馈送给具有256个滤波器的1x1卷积。最后，他们将特征双线性升采样到所需的空间尺寸。图5中的示例提供了两个输出。输出（a）是3x3卷积，多重网格速率=（6，12，18）。然后，网络将这些输出连接起来，并在生成logit类输出的最终1x1卷积之前通过1x1卷积传递。

图5.具有无穷卷积的并行模块

实验

为了给这种方法提供支持，他们将级联和多网格ResNet与ASPP进行了比较。结果是：

输出步幅：他们发现，较大的分辨率或较小的output_stride的性能要明显好于无异常卷积或较大的output_stride。他们还发现，在比较output_stride为8（分辨率更高）和output_stride为16的验证集上测试这些网络时，output_stride为8时性能更好。
级联：与常规卷积相比，级联无穷卷积的结果提高了性能。但是，他们发现添加的块越多，改进的余地就越小。
多网格：他们对多网格体系结构的结果相对于“香草”网络确实有所改善，并且在块7处的（r1，r2，r3）=（1、2、1）时表现最佳。
ASPP +多重网格+图像池：随着在多重网格率（R 1，R ₂，- [R ₃）=（1，2，4），使得ASPP（6，12，18）中的模型在77.21米欧表现最佳。在具有多尺度输入的COCO数据集上的output_stride = 8时，该模型在82.70进行了测试，通过将output_stride从16更改为8，可以显示出进一步的改进。

结论

作者提出了一种方法，该方法通过向空间“金字塔”池中的无规卷积层添加批处理规范和图像特征来更新DeepLab的先前版本。结果是网络可以提取密集的特征图以捕获远程上下文，从而提高分割任务的性能。他们提出的模型的结果优于PASCAL VOC 2012语义图像分割基准测试中的最新模型。

- END -

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~