贝叶斯优化与结构化预测 | 大幅度提升目标检测精度-技术圈

一、前言&简要

基于深度卷积神经网络的目标检测系统最近在几个目标检测基准上取得了突破性的进展。虽然这些high-capacity神经网络学习到的特征可以区分类别，但不准确的定位仍然是检测错误的主要来源。在高容量CNN架构的基础上，研究者通过以下来解决定位问题。1)使用基于贝叶斯优化的搜索算法，按顺序提出目标边界框的候选区域；2)用结构化损失训练CNN，明确地惩罚CNN的定位不准确性。

在实验中，研究者证明了在VOC 2007年和2012年的数据集上，所提出的每种方法都比基线方法提高了检测性能。此外，两种方法是互补的，结合起来明显优于以前的先进技术。

二、背景

DPM及其变体多年来一直是目标检测任务的主要方法。这些方法使用图像描述符，如HOG、SIFT和LBP作为特征，并密集地扫描整个图像，以找到最大的响应区域。随着CNN在大规模目标识别上取得的显著成功，提出了几种基于CNNs的检测方法。遵循传统的区域候选滑动窗口方法，Sermanet等人[Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. OverFeat: Integrated recognition, localization and detection using convolutional networks. In ICLR, 2014 ]提出使用cnn对整个图像进行详尽的搜索，但通过在多个尺度上同时对整个图像进行卷积，使其有效。除了滑动窗法，Szegedy等人[C. Szegedy, A. Toshev, and D. Erhan. Deep neural networks for object detection. In NIPS]使用CNNs返回图像中目标的边界框，并使用另一个CNN分类器来验证预测的框是否包含对象。Girshick等人[R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR]根据“recognition using regions”范式提出了R-CNN，这也激发了之前几种最先进的方法。在该框架下，通过选择性搜索算法为图像提出了几百或数千个区域，CNN确定这些候选区域。研究者的新方法是建立在使用[K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR]中提出的CNN的R-CNN框架上的，但是，1)一种新的方法在定位差的情况下提出额外的边界框，2)一个具有提高定位灵敏度的分类器。