ICCV2021|中科大&北大提出：条件DETR收敛速度提升10倍-技术圈

点击下方“AI算法与图像处理”，一起进步！

重磅干货，第一时间送达

码字不易，给周末还在努力的打工人点个赞吧。

之前分享过一篇来自商汤关于DETR加速收敛的论文

Detection Transformer（DETR）训练更快收敛的绝佳方案！即插即用的SMCA模块 | ICCV 2021

SMCA的核心思想是在DETR中通过将co-attention 反馈限制在初始估计的边界框位置附近，从而进行位置感知。我们提出的SMCA在保持DETR中其他操作不变的情况下，通过替换解码器中原有的co-attention机制，提高了DETR的收敛速度。

今天分享一篇中科大&北大的论文：

Conditional DETR for Fast Training Convergence

更多 ICCV 2021 的论文和代码，以及相关的报告和解读都进行整理（欢迎star）

https://github.com/DWCTOD/ICCV2021-Papers-with-Code-Demo

摘要

最近提出的DETR方法将transformer编码器和解码器架构应用于目标检测，并取得了良好的性能。在本文中，我们处理的关键问题，缓慢的训练收敛，并提出了一种条件cross-attention机制的快速DETR训练。我们的方法的动机是，DETR中的cross-attention高度依赖于内容嵌入来定位四个顶点和预测框，这增加了对高质量内容嵌入的需求，从而增加了训练难度。

我们的方法称为条件DETR，它从解码器嵌入中学习一个条件空间查询，用于解码器多头交叉注意。这样做的好处是，通过条件空间查询，每个交叉注意头部能够注意到包含不同区域的波段，例如，一个物体顶点或目标框的区域。这缩小了用于对象分类和盒回归的不同区域定位的空间范围，从而放松了对内容嵌入的依赖并简化了训练。实验结果表明，对于backbone R50和R101，条件DETR收敛速度加快6.7倍，对于更强的backbone DC5-R50和DC5-R101，条件DETR收敛速度加快10倍。

动机

DETR 训练收敛缓慢。

原因是因为：DETR中的cross-attention高度依赖于内容嵌入来定位四个顶点和预测框，这增加了对高质量内容嵌入的需求，从而增加了训练难度。

解决方案

从解码器嵌入中学习一个条件空间查询，用于解码器多头cross-attention

通过条件空间查询，每个cross-attention头部能够注意到包含不同区域的波段，例如，一个物体顶点或目标框的区域。这缩小了用于对象分类和框回归的不同区域定位的空间范围，从而降低了对内容嵌入的依赖并简化了训练。

cross-attention的目的是定位不同的区域、用于检测框的四个端点和用于目标分类的框内部区域，并聚合相应的嵌入。我们提出了一种条件cross-attention机制，通过引入条件空间查询来提高定位能力和加速训练过程。

解决方案

实验结果表明，对于backbone R50和R101，条件DETR收敛速度加快6.7倍，对于更强的backbone DC5-R50和DC5-R101，条件DETR收敛速度加快10倍。

说明根据我们的条件DETR计算的空间注意权重图（第一行）、内容注意权重图（第二行）和组合注意权重图（第三行）。注意力权重图来自8个头中的5个头，负责四个顶点和对象框内的一个区域。四个顶点的内容注意力权重贴图突出显示框（自行车）内的分散区域或两个对象实例（cow）中的类似区域，相应的组合注意权重贴图借助空间注意权重贴图突出显示肢体区域。对象框内区域的组合注意权重图主要依赖于空间注意力权重图，这意味着对象内区域的表示可能编码足够的类信息。这些map来自条件DETR-R50，经过50个epoch的训练。

COCO 数据集上对比

多尺度和更高分辨率DETR变体的结果

解决方案

我们提出了一个简单的条件cross-attention机制。关键是从相应的参考点学习空间查询和解码器嵌入。空间查询包含为前一解码器层中的类和框预测挖掘的空间信息，并生成空间注意权重图，突出显示对象框内包含端点和小区域的频带。这缩小了内容查询的空间范围以定位不同的区域，从而放松了对内容查询的依赖并降低了训练难度。未来，我们将研究提出的用于人体姿势估计[8,41,36]和线段检测[43]的条件交叉注意机制。

新建学术交流群，欢迎各位小伙伴进群交流

努力分享优质的计算机视觉相关内容，欢迎关注：

个人微信（如果没有备注不拉群！）

请注明：地区+学校/企业+研究方向+昵称

下载1：何恺明顶会分享

在「AI算法与图像处理」公众号后台回复：何恺明，即可下载。总共有6份PDF，涉及 ResNet、Mask RCNN等经典工作的总结分析

下载2：终身受益的编程指南：Google编程风格指南

在「AI算法与图像处理」公众号后台回复：c++，即可下载。历经十年考验，最权威的编程规范！

下载3 CVPR2021

在「AI算法与图像处理」公众号后台回复：CVPR，即可下载1467篇CVPR 2020论文 和 CVPR 2021 最新论文

点亮，告诉大家你也在看