ICCV2021|中科大&北大提出:条件DETR收敛速度提升10倍

共 2236字,需浏览 5分钟

 ·

2021-08-25 13:26


点击下方AI算法与图像处理”,一起进步!

重磅干货,第一时间送达


码字不易,给周末还在努力的打工人点个赞吧。

之前分享过一篇来自商汤关于DETR加速收敛的论文

Detection Transformer(DETR)训练更快收敛的绝佳方案!即插即用的SMCA模块 | ICCV 2021

SMCA的核心思想是在DETR中通过将co-attention 反馈限制在初始估计的边界框位置附近,从而进行位置感知。我们提出的SMCA在保持DETR中其他操作不变的情况下,通过替换解码器中原有的co-attention机制,提高了DETR的收敛速度。

今天分享一篇中科大&北大的论文:

Conditional DETR for Fast Training Convergence


更多 ICCV 2021 的论文和代码,以及相关的报告和解读都进行整理(欢迎star)

https://github.com/DWCTOD/ICCV2021-Papers-with-Code-Demo



摘要

最近提出的DETR方法将transformer编码器和解码器架构应用于目标检测,并取得了良好的性能。在本文中,我们处理的关键问题,缓慢的训练收敛,并提出了一种条件cross-attention机制的快速DETR训练。我们的方法的动机是,DETR中的cross-attention高度依赖于内容嵌入来定位四个顶点和预测框,这增加了对高质量内容嵌入的需求,从而增加了训练难度。

我们的方法称为条件DETR,它从解码器嵌入中学习一个条件空间查询,用于解码器多头交叉注意。这样做的好处是,通过条件空间查询,每个交叉注意头部能够注意到包含不同区域的波段,例如,一个物体顶点或目标框的区域。这缩小了用于对象分类和盒回归的不同区域定位的空间范围,从而放松了对内容嵌入的依赖并简化了训练。实验结果表明,对于backbone R50和R101,条件DETR收敛速度加快6.7倍,对于更强的backbone DC5-R50和DC5-R101,条件DETR收敛速度加快10倍。

动机

DETR 训练收敛缓慢。

原因是因为:DETR中的cross-attention高度依赖于内容嵌入来定位四个顶点和预测框,这增加了对高质量内容嵌入的需求,从而增加了训练难度。

解决方案

从解码器嵌入中学习一个条件空间查询,用于解码器多头cross-attention

通过条件空间查询,每个cross-attention头部能够注意到包含不同区域的波段,例如,一个物体顶点或目标框的区域。这缩小了用于对象分类和框回归的不同区域定位的空间范围,从而降低了对内容嵌入的依赖并简化了训练。

cross-attention的目的是定位不同的区域、用于检测框的四个端点和用于目标分类的框内部区域,并聚合相应的嵌入。我们提出了一种条件cross-attention机制,通过引入条件空间查询来提高定位能力和加速训练过程。

解决方案


实验结果表明,对于backbone R50和R101,条件DETR收敛速度加快6.7倍,对于更强的backbone DC5-R50和DC5-R101,条件DETR收敛速度加快10倍。

说明根据我们的条件DETR计算的空间注意权重图(第一行)、内容注意权重图(第二行)和组合注意权重图(第三行)。注意力权重图来自8个头中的5个头,负责四个顶点和对象框内的一个区域。四个顶点的内容注意力权重贴图突出显示框(自行车)内的分散区域或两个对象实例(cow)中的类似区域,相应的组合注意权重贴图借助空间注意权重贴图突出显示肢体区域。对象框内区域的组合注意权重图主要依赖于空间注意力权重图,这意味着对象内区域的表示可能编码足够的类信息。这些map来自条件DETR-R50,经过50个epoch的训练。

COCO 数据集上对比

多尺度和更高分辨率DETR变体的结果


解决方案

我们提出了一个简单的条件cross-attention机制。关键是从相应的参考点学习空间查询和解码器嵌入。空间查询包含为前一解码器层中的类和框预测挖掘的空间信息,并生成空间注意权重图,突出显示对象框内包含端点和小区域的频带。这缩小了内容查询的空间范围以定位不同的区域,从而放松了对内容查询的依赖并降低了训练难度。未来,我们将研究提出的用于人体姿势估计[8,41,36]和线段检测[43]的条件交叉注意机制。

新建学术交流群,欢迎各位小伙伴进群交流

努力分享优质的计算机视觉相关内容,欢迎关注:


个人微信(如果没有备注不拉群!
请注明:地区+学校/企业+研究方向+昵称



下载1:何恺明顶会分享


AI算法与图像处理」公众号后台回复:何恺明,即可下载。总共有6份PDF,涉及 ResNet、Mask RCNN等经典工作的总结分析


下载2:终身受益的编程指南:Google编程风格指南


AI算法与图像处理」公众号后台回复:c++,即可下载。历经十年考验,最权威的编程规范!



下载3 CVPR2021

AI算法与图像处公众号后台回复:CVPR即可下载1467篇CVPR 2020论文 和 CVPR 2021 最新论文

点亮 ,告诉大家你也在看



浏览 14
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报