总结目标检测匹配策略与改进思路-技术圈

↑ 点击蓝字关注极市平台

作者丨高毅鹏@知乎

来源｜https://zhuanlan.zhihu.com/p/149473726

编辑丨极市平台

极市导读

CVPR2020中的文章ATSS揭露到anchor-based和anchor-free的目标检测算法之间的效果差异原因是由于正负样本的选择造成的。而在目标检测算法中正负样本的选择是由gt与anchor之间的匹配策略决定的。因此，本文研究了目前现有的匹配策略，并根据现状给出改进思路。

faster rcnn或retinanet或ssd算法

采用的分配策略是max iou assigner，即：对于每个gt，将高于正样本阈值的并且是max iou位置的anchor设置为正样本；将低于负样本阈值的anchor设置为负样本，考虑到有些gt和anchor的iou不高，故还设置了最小正样本阈值，当某个gt和anchor的max iou大于最小正样本阈值时候，则依然将该anchor设置为正样本。

yolo系列

是对于每个gt，将max iou位置的anchor设置为正样本，不管阈值多大(先要确定哪一预测层负责预测)，这种操作对anchor设置要求较高，因为如果anchor设置不合理，就只能用大量低质量anchor负责回归了。对于正样本附近的anchor预测值，其可能和gt的iou也很高，故需要将这些位置的anchor预测值设置为忽略样本，默认阈值是0.7。可能滤除一些正样本。

fcos

第一步也是和yolo一样，要确定某个Gt在第几个层负责预测(采用min_size 和 max size_)。第二步是需要确定在每个输出层上面，哪些空间位置是正样本区域，哪些是负样本区域。原版的fcos的正负样本策略非常简单粗暴：在bbox区域内的都是正样本，其余地方都是负样本，而没有忽略样本区域。可想而知这种做法不友好，因为标注本身就存在大量噪声，如果bbox全部区域都作为正样本，那么bbox边沿的位置作为正样本负责预测是难以得到好的效果的，显然是不太靠谱的(在文本检测领域，都会采用shrink的做法来得到正样本区域)，所以后面又提出了center sampling的做法来确定正负样本，具体是：引入了center_sample_radius(基于当前stride参数)的参数用于确定在半径范围内的样本都属于正样本区域，其余区域作为负样本，依然没有定义忽略样本。

Guided Anchoring

论文思想是通过图像特征来指导 anchor 的生成。通过预测 anchor 的位置和形状，来生成稀疏而且形状任意的 anchor，并且设计了 Feature Adaption 模块来修正特征图使之与 anchor 形状更加匹配，在使用 ResNet-50-FPN 作为 backbone 的情况下，Guided Anchoring 将 RPN 的 recall（AR@1000）提高了 9.1 个点，将其用于不同的物体检测器上，可以提高 mAP 1.2 到 2.7 个点不等。

论文实现方式如下图：

匹配策略：将整个 feature map 的区域分为物体中心区域，外围区域和忽略区域，大概思路就是将 ground truth 框的中心一小块对应在 feature map 上的区域标为物体中心区域，在训练的时候作为正样本，其余区域按照离中心的距离标为忽略或者负样本，具体设计在 paper 里讲得比较清楚。通过位置预测，我们可以筛选出一小部分区域作为 anchor 的候选中心点位置，使得 anchor 数量大大降低。在 inference 的时候，预测完位置之后，我们可以采用 masked conv 替代普通的 conv，只在有 anchor 的地方进行计算，可以进行加速。

ATSS

1、对于每个GT，找到候选的正anchor集合

在每个金字塔层级（共L层）上，选择topk个离GT中心距离最近的anchor boxes作为候选anchor, 那么每个GT就会有k*L个候选正anchor。

2、计算自适应阈值

计算候选anchor与GT之间的IoU Dg，计算均值和标准差，其阈值为：。

3、确定最终的正anchor

选择，且中心点在GT边框内部的anchor作为最终的正样本，如果一个anchor box被分配给了多个GT，选择IoU最高的那个GT。

ATSS的意义:

根据目标统计特征，自动调整正负样本选取方式。如图(a),当越大，表示候选样本质量很高，可以选取一个高的IoU阈值。如图(b), 越小，表示绝大多数的候选样本较差，应当选取一个较低的阈值来确保GT可以匹配到anchor。如图3(a), 较大时，往往意味着有一个FPN层出现了较高的IOU，说明该层非常适合这个物体的预测，因此和加起来得到一个较高的阈值，我们只从这一层选取正样本。如图3(b), 较小意味着存在多个适合该目标的金字塔层，因此和加起来得到一个较低的阈值，会在这些层级上选取正样本。

每个目标匹配anchor数量相对均匀。

HAMBox

匹配策略：

1、将每张脸匹配到那些与它的iou大于某个阈值的anchor，对于outer face不进行补偿。

2、在训练的每次前向传播之后，每个anchor通过回归得到的坐标计算出回归框，我们将这些回归框记作，异常脸outer face记作。最后，对于每个outer face，我们计算它与的IOU值，然后对每张outer face补偿N个unmatched anchor。记所有的IOUs为 , 这些补偿的N个anchor通过下面方式选择：

a）IOU要大于阈值T(在线正anchor匹配阈值)

b）对（a）中得到的anchor进行排序，选择IOU最大的top-K 个anchor做补偿。K是一个超参数，表示每个outer face能matched的最多anchor数目。使用M表示在步骤1中已经匹配的anchor数目。如果N > K-M，则选取top(K-M)个unmatched anchor来补偿。

T和K是通过实验选择的超参数。具体算法细节见下 Algorithm 1，该算法在训练的每次前向传播后执行一次.

Algorithm1具体见下：

/*输入：B,X,T,K,D,L,R,AB 是一组回归后的框，格式为(x0, y0, x1, y1)X 是一组ground truth, 格式为(x0, y0, x1, y1)T 是上述算法中在线anchor挖掘中定义的阈值K 是每个outer face能匹配到的最多anchor数目D 是一个字典，key是ground_truth, value是HAMBox第一步中  该gt能match到的anchor数，即matched_anchor的数目L 是一个字典，key是anchor index, value是该anchor在HAMBox中最终分配的labelR 是一个字典，key是anchor index, value是该anchor经过普通anchor matching后的编码后的坐标A 是一个字典，key是anchor index, value是该anchor的坐标，格式为(x0, y0, x1, y1)
输出：经过HAMBox后的R和L*/// 伪代码见下for x_i in x do    if D(x_i) >= K then        continue    end if    compensatedNumber = K - D(x_i)    onlineIoU = IoU(x_i, B),AnchorIdx     sortedOnlineIoU = sorted(onlineIoU, key = IoU, reverse = True)    for IoU, AnchorIdx in sortedOnlineIoU do        if(L(AnchorIdx) = 1) then            continue        endif        if(IoU < T) then            continue        endif        compensatedNumber -= 1        L(AnchorIdx) = 1        R(AnchorIdx) = encoded(A(AnchorIdx), x_i)        if compensatedNumber = 0 then              break        endif    endforendforreturn R, L

推荐阅读

一文打尽目标检测NMS：效率提升方法总结
一文看懂目标检测边界框概率分布
基于深度学习的图像匹配技术一览

添加极市小助手微信（ID : cvmart2），备注：姓名-学校/公司-目标检测-城市（如：小极-北大-目标检测-深圳），即可申请加入极市目标检测等技术交流群：每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

△长按添加极市小助手

△长按关注极市平台，获取最新CV干货

觉得有用麻烦给个在看啦~