Detection Transformer(DETR)训练更快收敛的绝佳方案!即插即用的SMCA模块 | ICCV 2021
点击下方“AI算法与图像处理”,一起进步!
重磅干货,第一时间送达
Vision Transformer 相关的工作依然火爆,不完全统计已有20来篇来,今天介绍一篇来自商汤科技的最新工作:
github链接和论文:
https://arxiv.org/pdf/2108.02404.pdf
https://github.com/fredzzhang/spatially-conditioned-graphs
更多 ICCV 2021 的论文和代码,以及相关的报告和解读都进行整理(欢迎star)
https://github.com/DWCTOD/ICCV2021-Papers-with-Code-Demo
摘要
最近提出的Detection Transformer(DETR)模型成功地将 transformer 应用于目标检测,并实现了与两阶段对象检测框架(如 Faster-RCNN)相当的性能。然而,DETR收敛缓慢。从头开始的训练数据[4]需要500个epoch才能达到高精度。为了加快其收敛速度,我们提出了一种简单而有效的改进DETR框架的方案,即 Spatially Modulated Co-Attention(SMCA)机制。SMCA的核心思想是在DETR中通过将co-attention 反馈限制在初始估计的边界框位置附近,从而进行位置感知。我们提出的SMCA在保持DETR中其他操作不变的情况下,通过替换解码器中原有的co-attention机制,提高了DETR的收敛速度。此外,通过将multi-head和scale-selection attention设计集成到SMCA中,我们的完整分级SMCA可以实现比基于扩展卷积主干的DETR更好的性能(108个epoch时45.6 mAP,500个epoch时43.3 mAP)。
速度对比:
动机和核心思想
最近提出的DETR 通过移除手工设计的anchor和非最大值抑制(NMS),大大简化了目标检测pipeline。然而,与two-stage或one-stage检测器相比,DETR的收敛速度较慢(500vs 40 epoch)。DETR的缓慢收敛使得研究人员难以进一步扩展该算法,从而阻碍了其广泛应用。
在DETR中,有一系列对象查询向量负责检测不同空间位置的对象。每个对象查询与卷积神经网络(CNN)编码的空间视觉特征交互,通过 co-attention 机制自适应地从空间位置收集信息,然后估计边界框位置和对象类别。然而,在DETR的解码器中,每个对象查询的共同关注视觉区域可能与查询要预测的边界框无关。因此,DETR的解码器需要较长的训练周期来搜索适当的共同参与区域,以准确地识别相应的对象。
基于这一观察结果,我们提出了一个新的模块,名为 Spatially Modulated Co-attention(SMCA),它是一个即插即用模块,用于取代DETR中现有的co-attention机制,并通过简单的修改实现更快的收敛和更高的性能。提出的SMCA动态预测每个对象查询对应的框的初始中心和比例,生成二维空间高斯权重图。权重映射与对象查询和图像特征的co-attention特征映射地对应相乘,以更有效地从视觉特征映射中聚合查询相关信息。通过这种方式,空间权重图有效地调节每个对象查询的共同关注的搜索范围,使其适当地围绕最初估计的对象中心和比例。利用高斯分布的训练可以显著提高SMCR的空间预测速度。
主要贡献
1)提出 Spatially Modulated Co-attention(SMCA),可以加速DETR 的收敛。
没有多尺度特征和多头注意力的SMCA基础版本已经可以在50个epoch实现41.0 mAP,在108个epoch实现42.7 mAP。在 V100 GPU 上训练SMCA的基础版本50个epoch需要265 小时。
2)我们的完整SMCA进一步集成了多尺度特征和多头空间调制,可以进一步显著改进和超越DETR,只需更少的训练迭代。SMCA在50个epoch可实现43.7 mAP,在108个epoch可实现45.6 mAP,而DETR-DC5在500个epoch可实现43.3 mAP。在V100 GPU上需要600 小时来训练50个epoch的完整SMCA。
3)我们对COCO 2017数据集进行了广泛的消融研究,以验证的SMCA模块和网络设计的有效性。
实验结果:
努力分享优质的计算机视觉相关内容,欢迎关注:
个人微信(如果没有备注不拉群!) 请注明:地区+学校/企业+研究方向+昵称
下载1:何恺明顶会分享
在「AI算法与图像处理」公众号后台回复:何恺明,即可下载。总共有6份PDF,涉及 ResNet、Mask RCNN等经典工作的总结分析
下载2:终身受益的编程指南:Google编程风格指南
在「AI算法与图像处理」公众号后台回复:c++,即可下载。历经十年考验,最权威的编程规范!
下载3 CVPR2021 在「AI算法与图像处理」公众号后台回复:CVPR,即可下载1467篇CVPR 2020论文 和 CVPR 2021 最新论文
点亮 ,告诉大家你也在看