贝叶斯优化与结构化预测 | 大幅度提升目标检测精度
基于深度卷积神经网络的目标检测系统最近在几个目标检测基准上取得了突破性的进展。虽然这些high-capacity神经网络学习到的特征可以区分类别,但不准确的定位仍然是检测错误的主要来源。在高容量CNN架构的基础上,研究者通过以下来解决定位问题。1)使用基于贝叶斯优化的搜索算法,按顺序提出目标边界框的候选区域;2)用结构化损失训练CNN,明确地惩罚CNN的定位不准确性。
在实验中,研究者证明了在VOC 2007年和2012年的数据集上,所提出的每种方法都比基线方法提高了检测性能。此外,两种方法是互补的,结合起来明显优于以前的先进技术。
二、背景
DPM及其变体多年来一直是目标检测任务的主要方法。这些方法使用图像描述符,如HOG、SIFT和LBP作为特征,并密集地扫描整个图像,以找到最大的响应区域。随着CNN在大规模目标识别上取得的显著成功,提出了几种基于CNNs的检测方法。遵循传统的区域候选滑动窗口方法,Sermanet等人[Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. OverFeat: Integrated recognition, localization and detection using convolutional networks. In ICLR, 2014 ]提出使用cnn对整个图像进行详尽的搜索,但通过在多个尺度上同时对整个图像进行卷积,使其有效。除了滑动窗法,Szegedy等人[C. Szegedy, A. Toshev, and D. Erhan. Deep neural networks for object detection. In NIPS]使用CNNs返回图像中目标的边界框,并使用另一个CNN分类器来验证预测的框是否包含对象。Girshick等人[R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR]根据“recognition using regions”范式提出了R-CNN,这也激发了之前几种最先进的方法。在该框架下,通过选择性搜索算法为图像提出了几百或数千个区域,CNN确定这些候选区域。研究者的新方法是建立在使用[K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR]中提出的CNN的R-CNN框架上的,但是,1)一种新的方法在定位差的情况下提出额外的边界框,2)一个具有提高定位灵敏度的分类器。
三、Fine-grained search for bounding box via Bayesian optimization
3.1 General Bayesian optimization framework
在贝叶斯优化框架中,假设f=(x,y)是从概率模型中提取的:
贝叶斯优化在函数计算的数量方面是有效的,当f的计算成本昂贵时也特别有效。当a(yN | DN)比f计算要简便得多,而arg max yN+1(yN+1 | DN)的计算只需要一些函数计算时,可以有效地找到一个更接近GT的解决方案。
3.2 Efficient region proposal via GP regression
在这里,研究者使用常数平均函数m(y) = m0和SEard,确定如下:
GP回归(GPR)问题试图找到一个新的参数yN1,给定N个观测DN,最大化获取函数的值,在者情况下,用期望的改进(EI)定义为:
3.3Local fine-grained search
四、实验
10000+人已加入「大毛CV」
敬正在努力的我们!