全新ViT Backbone | 混合卷积与Attention设计的SMT更快、更小也更强
共 18352字,需浏览 37分钟
·
2023-08-04 16:46
点击下方卡片,关注「集智书童」公众号
本文首发于 【集智书童】,白名单账号转载请自觉植入本公众号名片并注明来源,非白名单账号请先申请权限,违者必究。
本论文介绍了一种新的视觉Transformer模型,ScaleAware Modulation Transformer(SMT),它能够高效地处理各种下游任务,通过结合卷积网络和视觉Transformer。SMT中的提出的ScaleAware Modulation(SAM)包括两个主要的创新设计。
首先,引入了Multi-Head Mixed Convolution(MHMC)模块,它可以捕捉多尺度特征并扩展感受野。
其次,提出了Scale-Aware Aggregation(SAA)模块,它是轻量级但有效的,可以在不同的 Head 之间实现信息融合,进一步增强卷积调制。
此外,与先前的工作不同,该论文提出了一种进化混合网络(EHN),它可以有效地模拟随着网络变得更深时从捕捉局部依赖关系到全局依赖关系的转变,从而获得更优越的性能。
广泛的实验表明,SMT在各种视觉任务中显著优于现有的最先进模型。
具体而言,SMT在ImageNet-1K上使用11.5M / 2.4GFLOPs和32M / 7.7GFLOPs分别达到82.2%和84.3%的top-1准确率。在使用 分辨率的ImageNet-22K预训练后,将其在分辨率 和 上微调,分别达到87.1%和88.1%的top-1准确率。在使用Mask R-CNN进行目标检测时,SMT基础模型经过1×和3×的训练进度,在COCO数据集上的mAP分别超过Swin Transformer对应模型4.2和1.3。在使用UPerNet进行语义分割时,SMT基础模型在单尺度和多尺度上的mIoU分别比Swin高2.0和1.1。
代码可:https://github.com/AFeng-x/SMT
1、简介
自从Vision Transformers(ViT)的开创性工作以来,Transformer模型在工业界和学术界都受到了极大的关注,在各种计算机视觉任务中取得了显著的成功,如图像分类、目标检测和语义分割。与仅允许在局部区域内使用共享卷积核进行交互的卷积网络不同,ViT将输入图像分割成一系列的图像块,并通过自注意力机制(SA)更新特征向量,实现全局的特征交互。然而,由于自注意力机制在视觉块数量上具有二次复杂度,特别是对于高分辨率输入,在下游任务中仍面临挑战。
为了应对这些挑战,提出了几种高效的空间注意力技术。例如,Swin Transformer采用窗口注意力机制来限制视觉块的数量,并通过平移操作建立跨窗口的连接。PVT 和Focal通过将视觉块合并与空间降维相结合,降低了自注意力的计算成本。Shunted在执行空间降维的同时有效地对多尺度目标进行建模。其他技术,如动态token选择也被证明是有效的改进方法。
与直接改进自注意力机制不同,一些研究探索了将高效的卷积块与强大的Transformer块结合的混合CNN-Transformer架构。作者观察到,大多数混合网络将浅层Transformer块替换为卷积块,以降低自注意力在早期阶段的高计算成本。然而,这些简单的堆叠策略阻碍了它们在准确性和延迟之间取得更好平衡的能力。因此,本文的一个目标是提出一个关于Transformer和卷积块集成的新视角。
基于[11, 4]中的研究,对不同深度的自注意力块进行了定量分析,并发现浅层块倾向于捕捉短程依赖,而深层块捕捉长程依赖,作者提出在浅层网络中用卷积块替换Transformer块,有两个主要原因:
-
自注意力在高分辨率输入下在浅层网络中产生显著的计算成本; -
卷积块本身具有对局部建模的能力,在浅层网络中比SA块更擅长捕捉短程依赖。
然而,作者观察到,简单地将卷积直接应用于特征图并不能达到期望的性能。受最近的卷积调制网络的启发,作者发现卷积调制可以聚合周围上下文并自适应调制,使其具有比单独使用卷积块更强大的建模能力。
因此,作者提出了一种新颖的卷积调制,称为Scale-Aware Modulation (SAM),它包括两个新模块:Multi-Head Mixed Convolution (MHMC) 和 Scale-Aware Aggregation (SAA)。MHMC模块旨在增强感受野并同时捕捉多尺度特征。SAA模块旨在有效地聚合来自不同 Head 的特征,同时保持轻量级结构。尽管有了这些改进,作者发现SAM在捕捉长程依赖方面仍然有所欠缺。为了解决这个问题,作者提出了一种新的混合Modulation-Transformer架构,称为Evolutionary Hybrid Network (EHN)。
具体而言,作者将SAM块应用于顶部的两个阶段,并将Transformer块应用于最后两个阶段,在倒数第二个阶段引入了一种新的堆叠策略。这个架构不仅模拟了从浅层到深层的长程依赖的变化,而且使得每个阶段中的每个块能够更好地匹配其计算特性,从而提高了在各种下游任务中的性能。总体而言,作者称作者提出的架构为Scale-Aware Modulation Transformer (SMT)。
如图1所示,作者的SMT在ImageNet-1K上明显优于其他最先进的视觉Transformer和卷积网络。值得注意的是,作者的SMT在tiny和base模型大小上的top-1准确率分别达到了82.2%和84.3%。此外,在COCO和ADE20K的目标检测、实例分割和语义分割任务中,作者的SMT始终优于其他最先进的模型。
总的来说,本文的贡献如下:
-
引入了Scale-Aware Modulation (SAM),其中包含了强大的Multi-Head Mixed Convolution (MHMC)和创新的轻量级Scale-Aware Aggregation (SAA)。SAM有助于整合多尺度上下文,并实现自适应调制,从而实现更精确的预测。 -
提出了一种新的进化混合网络,有效地模拟了网络逐渐加深时从捕捉局部到全局依赖的过程,从而提高了性能和效率。 -
在包括分类、目标检测和分割在内的几个广泛使用的基准测试中评估了作者提出的Scale-Aware Modulation Transformer (SMT)。实验结果表明,SMT始终优于SOTA Vision Transformers,并且需要更少的参数和更低的计算成本。
2、本文方法
2.1、整体架构
作者提出的Scale-Aware Modulation Transformer (SMT)的整体架构如图2所示。网络由4个阶段组成,每个阶段的下采样率为{4, 8, 16, 32}。
作者不是构建一个完全无注意力机制的网络,而是在前两个阶段中首先采用作者提出的Scale-Aware Modulation (SAM),然后在倒数第二个阶段中依次堆叠一个SAM块和一个Multi-Head Self-Attention (MSA)块,以模拟从捕捉局部到全局依赖的转变。对于最后一个阶段,作者只使用MSA块来有效地捕捉长程依赖关系。对于每个块中的FeedForward Network (FFN),作者采用了Shunted中使用的细节特定的前馈层。
2.2、缩放感知调制
1、Multi-Head Mixed Convolution
作者提出了MultiHead Mixed Convolution (MHMC),它引入了多个具有不同 Kernel-size 的卷积操作,使其能够捕捉多个尺度上的各种空间特征。此外,MHMC可以通过使用大的卷积核扩展感受野,增强其对长程依赖的建模能力。如图3(b)所示,MHMC将输入通道分成N个 Head ,并对每个 Head 应用不同的深度可分离卷积操作,从而减少参数大小和计算成本。为了简化设计过程,作者将 Kernel-size 初始化为3×3,并每个 Head 逐渐增加2。通过调整 Head 的数量,作者可以调节感受野的范围和多粒度信息。作者提出的MHMC可以表示为:
在式中, 表示将输入特征 按通道维度分成多个 Head , 表示每个 Head 的卷积 Kernel-size 逐渐以每个 Head 增加2的方式单调增加。
如图4(a)所示,每个不同的卷积特征图以自适应的方式学习关注不同粒度的特征,这是作者期望的。值得注意的是,在图4(b)中比较单 Head 和多 Head 的调制映射时,作者发现在第一阶段,多 Head 的可视化图能够准确地描述前景和目标对象,同时有效地滤除背景信息。而且,随着网络的加深,它仍然能够呈现目标对象的整体形状,而单 Head 卷积下与细节相关的信息会丢失。这表明在浅层阶段,MHMC能够比单 Head 更好地捕捉局部细节,同时在网络变得更深时保持有关目标对象的细节和语义信息。
2、Scale-Aware Aggregation
为了增强MHMC中多个 Head 之间的信息交互,作者引入了一种新的轻量级聚合模块,称为Scale-Aware Aggregation(SAA),如图3(c)所示。SAA包含一个操作,用于对MHMC产生的不同粒度的特征进行重组和分组。具体来说,作者从每个 Head 选择一个通道来构建一个组,然后利用反向瓶颈结构在每个组内进行上下特征融合操作,从而增强多尺度特征的多样性。然而,一个精心设计的分组策略使作者能够引入只有很少计算量,同时实现理想的聚合结果。
特别地,令输入 , ,这意味着组的数量与 Head 的数量成反比。随后,作者使用逐点卷积对所有特征进行跨组信息聚合,实现全局信息的交叉融合。SAA的过程可以表示为:
其中, 和 是逐点卷积的权重矩阵。 和 ,其中 和 分别表示 Head 的数量和组的数量。在这里, 代表第 个 Head 使用深度卷积得到的特征图,而 表示第 个 Head 中的第 个通道。
图5显示作者的SAA模块明确地加强了与语义相关的低频信号,并准确地聚焦在目标物体的最重要部分。例如,在第2阶段,眼睛、 Head 和身体被明确地突出显示为目标物体的重要特征,从而显著提高了分类性能。与聚合之前的卷积映射相比,作者的SAA模块展现出更好的能力来捕捉和表示视觉识别任务中的关键特征。
3、Scale-Aware Modulation
如图3(a)所示,在使用MHMC捕获多尺度空间特征并使用SAA进行聚合后,作者得到一个输出特征图,作者将其称为调制器M。然后,作者使用标量积来使用这个调制器来调制值V。对于输入特征 ,作者计算输出Z如下:
在公式3中, 表示逐元素的点乘操作, 和 是线性层的权重矩阵。由于调制器是通过公式3计算的,它会随着不同的输入动态变化,从而实现自适应的自调制。此外,与自注意力计算 的注意力图不同,调制器保留了通道维度。这个特性允许对元素逐个进行空间和通道特定的调制,同时在处理高分辨率图像时也具有内存效率。
2.3、Scale-Aware Modulation Transformer
Evolutionary Hybrid Network
在本节中,作者提出根据网络捕获范围依赖性的变化模式,重新分配适当的计算模块,以实现更好的计算性能。作者建议仅在倒数第二阶段使用MSA块来减轻计算负担。此外,为了有效地模拟过渡模式,作者提出了两种用于倒数第二阶段的混合堆叠策略:
-
顺序堆叠一个SAM块和一个MSA块,可以表示为 ,如图6(i)所示;
-
在该阶段的前半部分使用SAM块,后半部分使用MSA块,可以表示为 ,如图6(ii)所示。
为了评估这些混合堆叠策略的有效性,在ImageNet-1K数据集上评估了它们的top-1准确率,如表格9所示。
此外,如图7所示,作者计算了倒数第二阶段中MSA块的相对感受野,采用了[4]中提出的方法。值得注意的是,在早期层中,相对感受野出现了轻微的下降趋势。这一下降可以归因于SAM对早期MSA块的影响,SAM强调了相邻的token之间的关联。作者将这一现象称为适应期。随着网络的深入,作者可以看到感受野呈现出平稳稳定的上升趋势,表明作者提出的进化混合网络有效地模拟了从局部到全局依赖捕获的过渡过程。
3、实验
3.1、SOTA对比
1、ImageNet分类
表1呈现了作者提出的SMT与各种模型的比较结果,结果表明作者的模型在参数更少、计算成本更低的情况下胜过各种架构。具体而言,对于小尺寸模型,SMT的top-1准确率达到了82.2%,显著超过了PVTv2-b1和Shunted-T分别约3.5%和2.4%。
此外,在与小尺寸和基准尺寸模型进行比较时,SMT保持了领先地位。值得注意的是,SMT-B仅使用32M参数和7.7GFLOPs的计算,就实现了84.3%的top-1准确率,超过了许多更大的模型,如Swin-B,ConvNeXt-B和FocalNet-B,这些模型具有超过70M参数和15GFLOPs的计算量。
作者还在表2中报告了ImageNet-22K的预训练结果。与之前的最佳结果相比,作者的模型在参数更少、FLOPs更低的情况下取得了显着更好的准确性。SMT-L的top-1准确率达到了88.1%,超过InternImage-XL约0.1%,同时使用的参数更少(80.5M vs. 335M)并且具有更低的FLOPs(54.6G vs. 163G)。这个非常鼓舞人心的结果突显了SMT令人印象深刻的可伸缩性能力。
2、COCO目标检测与实例分割
在表3中,作者展示了SMT在不同模型尺寸下相对于其他网络在Mask R-CNN上的卓越性能。具体而言,在小尺寸和基准尺寸模型上,SMT在1× schedule下的box mAP分别比Swin Transformer提高了5.6和4.2个百分点。值得注意的是,在3× schedule和多尺度训练中,SMT仍然持续优于各种 Backbone网络。对于实例分割,结果也显示出作者的SMT在mask mAP方面相较于之前的SOTA网络表现更好。特别是在1× schedule下的小尺寸和基准尺寸模型上,作者的结果比FocalNet分别高出1.5和0.9个百分点。
此外,为了评估SMT的通用性,作者使用SMT-S作为 Backbone训练了另外两个检测模型:Cascade Mask R-CNN和RetinaNet。在表4中呈现的结果显示,与各种 Backbone网络相比,在box mAP和mask mAP方面都取得了明显的提高。
在Sparse R-CNN,ATSS和DINO上的box mAP结果列在表5中,表明SMT在所有检测框架上一直优于其他网络,突显了其在下游任务中卓越的性能。
3、语义分割
结果展示在表6中,显示出作者的SMT在所有设置下都明显优于Swin、FocalNet和Shunted Transformer。具体而言,SMT-B在单尺度和多尺度下相比Swin-B分别提高了1.5和0.9个mIoU,并且相比Focal-B分别提高了0.6和0.1个mIoU,同时消耗的FLOPs明显更少,模型大小减少了50%以上。即使对于SMT的小型模型,它的准确率也可与之前的SOTA模型相媲美,而这些模型有着更大的模型尺寸。
3.2、消融实验
1、多 Head 混合卷积中的 Head 数
表格7展示了在Multi-Head Mixed Convolution (MHMC)中卷积 Head 数对作者模型性能的影响。实验结果表明,增加多样性卷积核的数目有利于建模多尺度特征和扩展感受野,但增加更多的卷积 Head 会引入更大的卷积操作,可能会对网络推理速度产生负面影响并降低吞吐量。
值得注意的是,作者观察到在ImageNet-1K上的top-1准确率在卷积 Head 数为4时达到峰值,增加卷积 Head 数并没有提高模型的性能。这一发现表明,引入过多不同的卷积或使用单一卷积并不适合作者的SMT,强调选择适当数量的卷积 Head 来建模特定程度的多尺度空间特征的重要性。
2、不同的聚合策略
在应用MHMC之后,作者引入一个聚合模块来实现信息融合。表格8展示了不同聚合策略的比较,包括单个线性层、两个线性层和Invert BottleNeck (IBN) 。作者提出的Scale-Aware Aggregation (SAA)在模型性能上持续优于其他融合模块,表明SAA在以较少参数和较低计算成本建模多尺度特征方面的有效性。
值得注意的是,随着模型规模的增加,作者的SAA可以在利用较少的参数和较低的计算资源的情况下展现出更大的优势。
3、不同的混合叠加策略
在第3.3节中,作者提出了两种混合堆叠策略来增强从局部到全局依赖性的建模。表格9中的结果表明,第一种策略,即按顺序堆叠一个Scale-Aware Modulation块和一个Multi-Head Self-Attention块,效果更好,相比于另一种策略获得了0.3%的性能提升。
此外,堆叠所有MSA块的策略也达到了可比较的性能,这意味着在最后两个阶段保留MSA块至关重要。
4、Component Analysis
在本节中,作者通过对SMT进行消融研究,探究每个组件的独立贡献。起初,作者使用了单 Head 卷积模块和无聚合模块构建了调制。基于此,作者构建了一个无注意力机制的网络,其在ImageNet-1K数据集上可以达到80%的top-1准确率。
所有提出方法对模型性能的影响如表格10所示,总结如下:
-
Multi-Head Mixed Convolution (MHMC):为了增强模型捕获多尺度空间特征和扩展感受野的能力,作者用作者提出的MHMC替换了单 Head 卷积。这个模块对调制效果有效,导致准确率提高了0.8%。
-
Scale-Aware Aggregation (SAA):作者用作者提出的Scale-Aware Aggregation替换了单一线性层。SAA能有效地聚合MHMC捕获的多尺度特征。在前面的修改基础上,替换导致性能增加了1.6%。
-
Evolutionary Hybrid Network (EHN):作者在模型的最后两个阶段引入了自注意力模块,同时在倒数第二个阶段实现了作者提出的混合堆叠策略,这提高了模型在从局部到全局依赖性转换方面的建模能力,性能提升了2.2%。
4、参考
[1].Scale-Aware Modulation Meet Transformer.
5、推荐阅读
远超YOLOP | 超轻超快的TwinLiteNet实现多任务自动驾驶感知
DETR即插即用 | RefineBox进一步细化DETR家族的检测框,无痛涨点
中科大提出PE-YOLO | 让YOLO家族算法直击黑夜目标检测
扫码加入👉「集智书童」交流群
(备注:方向+学校/公司+昵称)
前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」
欢迎扫描上方二维码,加入「集智书童-知识星球」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!