目标检测的性能上界讨论
共 2290字,需浏览 5分钟
·
2022-06-01 11:02
点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
作者:ChenJoya
https://zhuanlan.zhihu.com/p/94990078
本文已由作者授权,未经允许,不得二次转载
https://arxiv.org/abs/1911.12451
发现了最近 arxiv 上的一篇文章 《Empirical Upper-bound in Object Detection and More》,作者们在多个数据集上探讨了多种检测器所能达到的性能上限,颇有当年 Speed/accuracy trade-offs for modern convolutional object detectors 的风采。“目标检测还有什么能做的?”这个问题确实很令人迷茫,但自己今后仍然会密切关注这个方向,希望能和这篇文章一样,为大家带来一些启发。
Abstract
(1)在作者的计算方式下,PASCAL VOC (test2007) 的上界可以达到 91.6%,COCO (val2017) 可以达到 78.2%, OpenImages V4 (val) 可以达到 58.9%,它们的上界离现在所能达到的最佳的性能仍有很大的差距;
(2)发现分类错误(混淆/漏检)比定位错误和重复检测错误更加重要;
(3)分析了一些数据增强的措施对检测器的影响。
分析
1. 实验细节
(1)平台:主流检测框架 mmdetection,detectron2 ;
(2)模型:R-CNN 系列(FasterRCNN, MaskRCNN, GridRCNN, LibraRCNN, CascadeRCNN, MaskScoringRCNN, GAFasterRCNN, HTC),one-stage/anchor-free系列 (RetinaNet,SSD, FCOS, CenterNet [objects as points]);
(3)数据集:PASCAL VOC (训练 07+12, 测试 07test), MS COCO (训练 train2017, 测试 val2017), OpenImages V4 (as Kaggle Competition), Fashion dataset (作者自个的);
(4)评价标准:COCO-style AP;
2. 如何估计性能上界
(1)假定性能上界是由 best object classifier 能达到的,即认为定位问题已经解决;
(2)探究实验,利用大网络 ResNet152 对目标进行分类,能得到多少的准确率(top-1 accuracy),发现将 object 单独分离出来效果是最好的;
(3)准备基于 recognition accuracy 来估计 AP 上界。设计一种生成 candidate box 的机制,用于生成不同 IoU 的 bounding-boxes 来计算 AP,并且基于这些 bounding-boxes 重新训练 ResNet-152 分类器;
(4)对于每一个 bounding-box 分配 ResNet-152 的 top-1 score 所对应的 label;
3. 各数据集的上界
(1) PASCAL VOC
(2)COCO
(3)OpenImages V4
(4)AP 与识别 accuracy 的关联
4. Error Diagnosis
(1)定义四种错误类型:
(2)对于每种错误,人为地消除后观察其提升,没有了分类方面的错误后,性能提升最明显:
5. Invariance Analysis
做各种数据处理,观察性能变化。总的来说,FCOS,RetinaNet 属于最优秀的那一档。
结论
(1)现在检测器的性能还没有离上界还有一定差距(但似乎在 IoU@0.5 时已经十分接近上界了);
(2)检测器的瓶颈在目标识别(recognition)上;
(3)检测器缺乏鲁棒性;
(4)并没有发现明显的证据说明 context 对于分类目标是有效的。
好消息!
小白学视觉知识星球
开始面向外开放啦👇👇👇
下载1:OpenCV-Contrib扩展模块中文版教程 在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。 下载2:Python视觉实战项目52讲 在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。 下载3:OpenCV实战项目20讲 在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。 交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~