目标检测的性能上界讨论-技术圈

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

作者：ChenJoya

https://zhuanlan.zhihu.com/p/94990078

本文已由作者授权，未经允许，不得二次转载

https://arxiv.org/abs/1911.12451

发现了最近 arxiv 上的一篇文章 《Empirical Upper-bound in Object Detection and More》，作者们在多个数据集上探讨了多种检测器所能达到的性能上限，颇有当年 Speed/accuracy trade-offs for modern convolutional object detectors 的风采。“目标检测还有什么能做的？”这个问题确实很令人迷茫，但自己今后仍然会密切关注这个方向，希望能和这篇文章一样，为大家带来一些启发。

Abstract

（1）在作者的计算方式下，PASCAL VOC (test2007) 的上界可以达到 91.6%，COCO (val2017) 可以达到 78.2%， OpenImages V4 (val) 可以达到 58.9%，它们的上界离现在所能达到的最佳的性能仍有很大的差距；

（2）发现分类错误（混淆/漏检）比定位错误和重复检测错误更加重要；

（3）分析了一些数据增强的措施对检测器的影响。

分析

1. 实验细节

（1）平台：主流检测框架 mmdetection，detectron2 ;

（2）模型：R-CNN 系列（FasterRCNN, MaskRCNN, GridRCNN, LibraRCNN, CascadeRCNN, MaskScoringRCNN, GAFasterRCNN, HTC），one-stage/anchor-free系列（RetinaNet，SSD, FCOS, CenterNet [objects as points]）;

（3）数据集：PASCAL VOC (训练 07+12, 测试 07test), MS COCO (训练 train2017, 测试 val2017), OpenImages V4 (as Kaggle Competition), Fashion dataset (作者自个的)；

（4）评价标准：COCO-style AP；

2. 如何估计性能上界

（1）假定性能上界是由 best object classifier 能达到的，即认为定位问题已经解决；

（2）探究实验，利用大网络 ResNet152 对目标进行分类，能得到多少的准确率（top-1 accuracy），发现将 object 单独分离出来效果是最好的；

图中的 0.2, 0.4, 0.6 ... 表示 box 的放缩倍数

（3）准备基于 recognition accuracy 来估计 AP 上界。设计一种生成 candidate box 的机制，用于生成不同 IoU 的 bounding-boxes 来计算 AP，并且基于这些 bounding-boxes 重新训练 ResNet-152 分类器；

（4）对于每一个 bounding-box 分配 ResNet-152 的 top-1 score 所对应的 label；

3. 各数据集的上界

（1） PASCAL VOC

（2）COCO

（3）OpenImages V4

（4）AP 与识别 accuracy 的关联

不同类别识别精度与对应 AP 的关联

4. Error Diagnosis

（1）定义四种错误类型：

（2）对于每种错误，人为地消除后观察其提升，没有了分类方面的错误后，性能提升最明显：

5. Invariance Analysis

做各种数据处理，观察性能变化。总的来说，FCOS，RetinaNet 属于最优秀的那一档。

结论

（1）现在检测器的性能还没有离上界还有一定差距（但似乎在 IoU@0.5 时已经十分接近上界了）；

（2）检测器的瓶颈在目标识别（recognition）上；

（3）检测器缺乏鲁棒性；

（4）并没有发现明显的证据说明 context 对于分类目标是有效的。

好消息！

小白学视觉知识星球

开始面向外开放啦👇👇👇

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

目标检测的性能上界讨论

点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达

Abstract （1）在作者的计算方式下，PASCAL VOC (test2007) 的上界可以达到 91.6%，COCO (val2017) 可以达到 78.2%， OpenImages V4 (val) 可以达到 58.9%，它们的上界离现在所能达到的最佳的性能仍有很大的差距；

分析

结论

点击上方“小白学视觉”，选择加"星标"或“置顶”
重磅干货，第一时间送达

Abstract

（1）在作者的计算方式下，PASCAL VOC (test2007) 的上界可以达到 91.6%，COCO (val2017) 可以达到 78.2%， OpenImages V4 (val) 可以达到 58.9%，它们的上界离现在所能达到的最佳的性能仍有很大的差距；