优于FCOS:在One-Stage和Anchor-Free目标检测中以最小的成本实现最小的错位(代码待开源)
共 2341字,需浏览 5分钟
·
2021-12-29 11:12
与基线FCOS(一种单阶段和无锚目标象检测模型)相比,新提出的模型在不同的主干上始终获得大约3 个AP的改进,证明了新方法的简单性和效率。
Non keypoint-based的目标检测模型由分类和回归分支组成,由于不同的任务驱动因素,这两个分支对来自相同尺度级别和相同空间位置的特征具有不同的敏感性。point-based的预测方法,在基于高分类置信点具有高回归质量的假设上,导致错位问题。我们的分析表明,该问题进一步具体由尺度错位和空间错位组成。
研究者的目标是以最小的成本解决这一现象——对head network进行微调,并用一种新的标签分配方法代替。实验表明,与基线FCOS(一种单阶段和无锚目标象检测模型)相比,新提出的模型在不同的主干上始终获得大约3 个AP的改进,证明了新方法的简单性和效率。
二、背景
目标检测是深度学习时代比较发达的研究领域。通常考虑两种不同的任务,分类旨在研究跨多类的不同特征,回归旨在绘制准确的边界框。然而,由于这两个任务之间的巨大特征信息敏感性,TSD【Revisiting the sibling head in object detector】显示存在空间特征错位问题,并损害了基于NMS的模型预测高置信度分类和高质量回归结果的能力。
对于空间错位部分,研究者在同一实例中渲染了分类损失和回归损失的空间分布。如上图所示,两个分布高度错位。具有微小分类损失或回归损失的点具有更好的特征可供这两个分支分别利用。因此,两个任务损失的高度错位分布表明这两个任务不喜欢相同空间位置的特征。
在这些分析下,为了解决尺度特征错位问题,研究者为每个任务设计了一个任务驱动的动态感受野适配器,一个简单但有效的形变卷积模块。为了减轻空间特征错位带来的负面影响,设计了一种标签分配方法,挖掘空间最对齐的样本,以增强模型预测具有高分类分数的可靠回归点的能力。
三、新框架
dynamic receptive filed adaptor
在现代one-stage检测器的head,为了在两个分支上获得相同大小的特征图,来自两个分支的四个卷积操作的每一步共享完全相同的内核大小、striding和padding。每个分支的最终感受野由下式计算:
Rl是每个FPN级别馈送的初始特征图的输入图像上的感受野,f(•)是关于跨四个连续卷积层的感受野的静态计算方法。
值得注意的是,RFA模块仅应用于检测器head的第一步,具有两个单独的形变卷积,以增强每个分支对尺度信息的适应能力,并进一步减轻尺度错位的差异。 它不同于直接将形变卷积应用于主干或neck,而不考虑两个分支的不同感受野。 它也不同于VFNet和RepPoints,它们通过形变卷积合并两个分支的信息。 在我们的例子中,每个分支都放宽了规模不匹配,因为我们根据详细的特征信息使每个分支中的每个特征点具有不同的个体感受野。
形变卷积(Deformable Convolution)原理
形变卷积的实现方法如下图所示:
Aligned Spatial Points Assignment Procedur
给定每个实例Ii的尺度分配结果l∗和l∗中的候选点Cl∗,新框架的任务是进一步挖掘Cl∗中空间最对齐的点。每个候选点有两个指标需要考虑:(1)考虑到两个任务的整体适应度Sf;(2) 由空间上的未对准损失分布引起的未对准度Sm。
使用softmax函数将Lcls和Lreg分别重新分配到相同的可测标准中,这是由softmax函数单调且其输出之和为一的优点给出的。对于未对齐的程度Sm,由于我们发现sigmoid函数可以高效地将变体输入转换为相当统一的输出,因此将其定义如下:
四、实验
COCO数据集上的比较
空间标签分配的可视化。第一行分别显示了两个任务的输入和损失分布。第二行的绿色十字是正分配点。
交流群
欢迎加入公众号读者群一起和同行交流,目前有美颜、三维视觉、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群
个人微信(如果没有备注不拉群!) 请注明:地区+学校/企业+研究方向+昵称
下载1:何恺明顶会分享
在「AI算法与图像处理」公众号后台回复:何恺明,即可下载。总共有6份PDF,涉及 ResNet、Mask RCNN等经典工作的总结分析
下载2:终身受益的编程指南:Google编程风格指南
在「AI算法与图像处理」公众号后台回复:c++,即可下载。历经十年考验,最权威的编程规范!
下载3 CVPR2021 在「AI算法与图像处理」公众号后台回复:CVPR,即可下载1467篇CVPR 2020论文 和 CVPR 2021 最新论文