无痛涨点！大白话讲解 Generalized Focal Loss-技术圈

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

作者丨李翔

来源丨https://zhuanlan.zhihu.com/p/147691786

导读

效果：良心技术，别问，问就是无cost涨点

一句话总结：基于任意one-stage 检测器上，调整框本身与框质量估计的表示，同时用泛化版本的GFocal Loss训练该改进的表示，无cost涨点（一般1个点出头）AP

论文：https://arxiv.org/pdf/2006.04388.pdf

代码：https://github.com/implus/GFocal

MMDetection官方收录地址：https://github.com/open-mmlab/mmdetection/blob/master/configs/gfl/README.md

这个工作核心是围绕“表示”的改进来的，也就是大家所熟知的“representation”这个词。这里的表示具体是指检测器最终的输出，也就是head末端的物理对象，目前比较强力的one-stage anchor-free的检测器（以FCOS，ATSS为代表）基本会包含3个表示：

1. 分类表示

2. 检测框表示

3. 检测框的质量估计（在FCOS/ATSS中，目前采用centerness，当然也有一些其他类似的工作会采用IoU，这些score基本都在0~1之间）

三个表示一般情况下如图所示：

那么要改进表示一定意味着现有的表示或多或少有那么一些问题。事实上，我们具体观察到了下面两个主要的问题：

问题一：classification score 和 IoU/centerness score 训练测试不一致。

这个不一致主要体现在两个方面：

1）用法不一致。训练的时候，分类和质量估计各自训记几个儿的，但测试的时候却又是乘在一起作为NMS score排序的依据，这个操作显然没有end-to-end，必然存在一定的gap。

2）对象不一致。借助Focal Loss的力量，分类分支能够使得少量的正样本和大量的负样本一起成功训练，但是质量估计通常就只针对正样本训练。那么，对于one-stage的检测器而言，在做NMS score排序的时候，所有的样本都会将分类score和质量预测score相乘用于排序，那么必然会存在一部分分数较低的“负样本”的质量预测是没有在训练过程中有监督信号的，有就是说对于大量可能的负样本，他们的质量预测是一个未定义行为。这就很有可能引发这么一个情况：一个分类score相对低的真正的负样本，由于预测了一个不可信的极高的质量score，而导致它可能排到一个真正的正样本（分类score不够高且质量score相对低）的前面。问题一如图所示：

不一致啊不一致, End-to-end 表示很难受

其形式上与QFL的右半部分很类似，含义是以类似交叉熵的形式去优化与标签y最接近的一左一右两个位置的概率，从而让网络快速地聚焦到目标位置的邻近区域的分布中去。

最后，QFL和DFL其实可以统一地表示为GFL，我们将其称之为Generalized Focal Loss，同时也是为了方便指代，其具体形式如下：

我们在附录中也给出了：Focal Loss，包括本文提出的QFL和DFL都可以看做为GFL中的变量取到特定值的特例。

最后是实验。Ablation Study就不展开了，重点的结论即是：

1. 这两个方法，即QFL和DFL的作用是正交的，他们的增益互不影响，所以结合使用更香（我们统一称之为GFL）。我们在基于Resnet50的backbone的ATSS（CVPR20）的baseline上1x训练无multi-scale直接基本无cost地提升了一个点，在COCO validation上从39.2 提到了40.2 AP。实际上QFL还省掉了原来ATSS的centerness那个分支，不过DFL因为引入分布表示需要多回归一些变量，所以一来一去inference的时间基本上也没什么变化。

2. 在2x + multi-scale的训练模式下，在COCO test-dev上，Resnet50 backbone用GFL一把干到了43.1 AP，这是一个非常可观的性能。同时，基于ResNeXt-101-32x4d-DCN backbone，能够有48.2的AP且在2080Ti单GPU上有10FPS的测速，还是相当不错的speed-accuracy trade-off了。

放一些重点的实验插图：

最后，附录里面其实有不少彩蛋。

第一个彩蛋是关于IoU和centerness的讨论。在对比实验中，我们发现IoU作为框预测质量的度量会始终比centerness更优。于是我们又具体深入分析了一些原因，发现的确从原理上来讲，IoU可能作为质量的估计更加合适。具体原因如下：

1） IoU本身就是最终metric的衡量标准，所以用来做质量估计和排序是非常自然的。

2） centerness有一些不可避免的缺陷，比如对于stride=8的FPN的特征层（也就是P3），会存在一些小物体他们的centerness label极度小甚至接近于0，如下图所示：

而IoU就会相对好很多。我们也统计了一下两者作为label的分布情况，如图：

这意味着IoU的label相对都较大，而centerness的label相对都较小，同时还有非常非常小的。可以想见，如果有一些正样本的centerness的label本身就很小，那么他们最后在做NMS排序的时候，乘上一个很小的数（假设网络学到位了），那么就很容易排到很后面，那自然性能就不容易上去了。所以，综合各种实验以及上述的分析，个人认为centerness可能只是一个中间产物（当然，其在FCOS中提出时的创新性还是比较valuable的），最终历史的发展轨迹还是要收敛到IoU来。

第二个彩蛋是分布式表示的一些有趣的观察。我们发现有一些分布式表示学到了多个峰。比如伞这个物体，它的伞柄被椅子严重遮挡。如果我们不看伞柄，那么可以按照白色框（gt）来定位伞，但如果我们算上伞柄，我们又可以用绿色框（预测）来定位伞。在分布上，它也的确呈现一个双峰的模式（bottom），它的两个峰的概率会集中在底部的绿线和白线的两个位置。这个观察还是相当有趣的。这可能带来一个妙用，就是我们可以通过分布shape的情况去找哪些图片可能有界定很模糊的边界，从而再进行一些标注的refine或一致性的检查等等。颇有一种Learn From Data，再反哺Data的感觉。

最后谈谈检测这块的两个可能的大趋势。太明显了，一个是kaiming引领的unsupervised learning，妥妥撸起袖子干一个检测友好的unsupervised pretrain model especially for object detection；还有一个是FAIR最近火爆的DETR，其实去掉NMS这个事情今年也一直在弄，搞的思路一直不太对，也没搞出啥名堂，还是DETR花500个epoch引领了一下这个潮流，指了个门道，当然方向有了，具体走成啥样，还是八仙过海，各显神通啦~

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~