中国科学院、东南大学等联合发表最新的视觉 Transformer 综述-技术圈

来自｜知乎作者丨闪闪红星闪闪

链接丨https://zhuanlan.zhihu.com/p/433048484

编辑丨极市平台

中国科学院、东南大学等单位联合发表最新的视觉 Transformer 综述。综述涵盖三种基本 CV 任务的一百多种不同的视觉 Transformer，最新模型截止至今年8月！同时，综述还包括了大量的实证分析、性能改进分析，并披露了三个具有广阔前景的未来研究方向！

Transformer 是一种基于注意力的编码器-解码器架构，它彻底改变了自然语言处理领域。受这一重大成就的启发，最近，在将类似于 Transformer 的结构应用于计算机视觉 (CV) 领域上进行了一些开创性工作，这已经证明了它们在各种 CV 任务上的有效性。与现在的卷积神经网络 (CNN) 相比，视觉 Transformer (ViT) 依靠有竞争力的建模能力，在 ImageNet、COCO 和 ADE20k 等多个基准上取得了十分优异的性能。在本文中，作者全面回顾了针对三个基本 CV 任务（分类、检测和分割）的一百多种不同的视觉 Transformer，其中提出了一种分类法，根据它们的动机、结构和使用场景来组织这些方法。由于训练设置和面向任务的差异，作者还在不同的配置上评估了这些方法，以方便直观地进行比较，而不仅仅是各种基准测试。此外，作者披露了一系列基本但未经开发的方面，这些方面可能使 Transformer 从众多架构中脱颖而出，例如，不充分的高级语义嵌入以弥合视觉和顺序 Transformer 之间的差距。最后，提出了三个有前景的未来研究方向，以供进一步研究。

1. 论文和代码地址

论文题目：A Survey of Visual Transformers

发表单位：中国科学院、东南大学、联想研究院、联想

论文地址：arXiv:2111.06091

提交时间：2021年11月11日

2. 动机

ViT 发展速度十分迅速！

如上图左边所示，Transformer 逐渐成为自然语言处理 (NLP) 的主要深度学习模型。从上图右图所示，在过去的一年中，针对不同的领域提出了数百种基于 Transformer 的视觉模型。

这篇综述和以往综述有什么区别？

去年发表了几篇关于 Transformer 的评论，其中 Tay 等人回顾了 NLP 中 Transformers 的效率，Khan 等人和 Han 等人总结了早期的视觉 Transformer 和之前的注意力模型，以及一些没有系统方法的语言模型。最近对 Transformer 的综述是 Lin 等人介绍的，提供了对 Transformer 各种变体的系统综述，并粗略地提到了它在视觉上的应用。基于这些观察，本文旨在全面回顾最近的 ViT，并系统地对这些现有方法进行分类：

全面性和可读性。 本文全面综述了100多种 ViT 的三个基本任务：分类、检测和分割。本文选择并分析了50多个代表性模型，如上图所示，本文不仅从一个角度对每个模型进行了详尽的分析，而且还通过渐进、对比和多视角分析等方式建立了它们之间的内在联系。
直观的比较。 由于这些 ViT 在各种任务中遵循不同的训练方案和超参数设置，因此本次调查通过在不同的数据集和限制上将它们分开来呈现多个横向比较。更重要的是，本文总结了为每个任务设计的一系列有前景的组件，包括：用于主干的具有层次结构的浅层局部卷积，用于颈部检测器的具有稀疏注意力的空间先验加速，以及用于分割的通用掩码预测方案。
深入分析。 本文进一步在以下方面提供了重要的见解：从序列到视觉任务的转换过程，Transformer 与其他视觉网络之间的对应关系，以及不同任务中采用的可学习嵌入（即类token、对象查询、掩码嵌入）的相关性。最后，本文概述了未来的研究方向。例如，编码器-解码器的 Transformer 主干可以通过学习的嵌入来统一三个子任务（分类、检测和分割）。

3. 最初的 Transformer

最初的Transformer架构如上图4所示，由以下3个模块组成：

多头注意力机制（MHSA）

每个注意力层的细节如上图3所示。

逐位置前馈网络（FFN）

位置编码

4. 分类中的 Transformer

受到在 NLP 中 Transformer 优异发展的启发，一些研究人员试图将 Transformer 引入图像分类。与传统CNN相比，Vision Transformer（ViT）首次在主流分类基准上实现了类似甚至更高的性能。本节全面回顾了 2021 年 6 月之前发布的 40 多个 Transformer 主干，并根据其动机和实现将它们分为六类，如下图 5 所示。

基于本文提出的分类，首先介绍了 ViT，用于图像分类的原始视觉 Transformer。然后讨论了 Transformer Enhanced CNN 方法，该方法利用Transformer来增强CNN主干的远程依赖性。Transformer 具有很强的全局建模能力，但在早期忽略了局部信息。因此，CNN Enhanced Transformer 方法利用适当的卷积归纳偏置来增强 Transformer，而 Local Attention Enhanced Transformer 方法重新设计补丁分区和注意力块以增强 Transformer 的局部性并保持无卷积架构。此外，CNN 在性能和计算效率方面从经验上受益于分层和深层结构。受此启发，提出了 Hierarchical Transformer 和 Deep Transformer 方法。前者用金字塔茎代替固定分辨率的柱状结构，而后者防止注意力图过于平滑并增加其在深层的多样性。此外，本文还回顾了当前可用的视觉 Transformer 自监督方法。最后，作者评估这些 Transformer 的性能，分析有希望的改进，并回答一个常见问题以供进一步调查。

4.1 最初的 ViT

ViT 是 Transformer 在图像分类中的第一个骨干。

4.2 Transformer 增强的 CNN

Transformer 有两个关键部分：MHSA 和 FFN。最近，Cordonnier 等人已经证明卷积层可以通过具有足够头数的 MHSA 来近似。Dong等人已经表明，MHSA 可能在没有跨层连接和 FFN时对“token一致性”具有很强的归纳偏置。因此，Transformer 在理论上具有比 CNN 更强大的建模能力。然而，它不可避免地具有沉重的计算成本，特别是对于浅层，由自注意力机制带来，随着特征分辨率的二次方增长。与之前基于注意力的方法类似，一些方法尝试将 Transformer 插入 CNN 主干或用 Transformer 层替换部分卷积块。例如 VTs 和 BoTNet。

4.3 CNN 增强 Transformer

归纳偏差可以表示为一组关于数据分布或解空间的假设，其在卷积中的表现是局部性和方差平移。局部性侧重于空间上接近的元素，并将它们与远端隔离。平移不变性表明在输入的位置之间重复使用相同的匹配规则 [97]。由于局部邻域内的协方差很大，并且在整个图像中趋于逐渐平稳，这些卷积偏差可以有效地处理图像数据。然而，强大的偏差也限制了 CNN 具有足够数据集的上限。最近的工作试图利用适当的卷积偏差来增强 Transformer 并加速其收敛。 这些应用可以概括如下：软近似（DeiT、ConViT）、直接局部性处理（ CeiT、LocalViT）、位置编码的直接替换（CPVT、ResT）和结构组合（Early Conv. 、CoAtNet）。作者逐一对这些模型进行了简要叙述。

4.4 局部注意力增强的 Transformer

ViT 将输入图像视为一个补丁序列。这种粗糙的补丁嵌入过程忽略了语言和图像之间的差距，这可能会破坏图像的局部信息。作为局部提取器，卷积通过相对固定的滤波器聚合特征。这种模板匹配过程可以有效地处理大多数小数据集，但在处理大型数据集时面临表示的组合爆炸。与卷积相比，局部注意力机制可以根据局部元素之间的关系动态生成注意力权重。为了增强局部特征提取能力并保留无卷积结构，一些工作（Swin Transformer、 TNT block、Twins、T2T-ViT）尝试通过局部自注意力机制来适应补丁结构。随后作者对一些 ViT 变体进行了简要阐述，分别是：TNT、Swin Transformer、Twins& ViL和 VOLO。

4.5 分层 Transformer

由于 ViT 在整个网络中以固定分辨率继承了原始的柱状结构，因此它忽略了细粒度特征，并带来了昂贵的计算成本。继分层 CNN 之后，最近的工作（CvT、PVT、ViL、T2T-ViT、PiT）将类似的结构应用于 Transformer 中。

4.6 深度 Transformer

根据经验，增加模型的深度使网络能够学习更复杂的表示。最近的工作将这种深度结构应用于 Transformer 并进行大量实验，通过分析跨 patch（Diverse Patch）和跨层（Refiner、DeepViT）的相似性以及残差块（CaiT）的贡献来研究其可扩展性。在深度 Transformer 中，更深层的特征往往不太具有代表性（注意力崩溃，由 DeepViT 发现），并且 patch 被映射到难以区分的潜在表示（补丁过度平滑，由 Diverse Patch 发现）。为了弥补上述限制，这些方法也多方面提出了相应的解决方案。本文简要介绍了CaiT、DeepViT & Refiner和 Diverse Patch。

4.7 有自监督学习的 Transformers

自监督 Transformers 在 NLP 中取得了成功，但受监督的预训练 Transformers 仍占据 CV 领域的主导地位。最近的工作还试图在生成性（iGPT、BEiT）和辨别性（MoCo v3、DINO）中为视觉 Transformer 设计各种自监督学习方案。

4.8 讨论

1）实验评估和对比分析

表1. 视觉 Transformer 在IMAGENET-1K、CIFAR-10、CIFAR-100上的TOP-1准确率对比

根据本文的分类法，所综述的监督模型可分为六类。表一总结了 Transformer 在主流分类基准上的分类性能，并为每个型号指定了专用颜色。为了客观直观地评估它们，以下三幅图说明了它们在不同配置下在 ImageNet-1k 上的比较（例如，模型大小、FLOPs 和训练方案）。下图总结了在输入分辨率下，每个模型的性能。由于 FLOPs 在 Transformer 内随输入大小呈二次增长，下图（b）将 FLOPs 作为水平轴，重点关注其在更高分辨率下的性能。下图（c）重点介绍带有外部数据集的预训练模型。根据这些图，作者简要分析了有利于模型性能、效率和可扩展性的几项改进，如下所示：

一般来说，大多数结构改进的方法针对特定模型尺寸、问题或特定输入分辨率进行优化，而其它基本训练策略，如 DeiT 和 LV-ViT，更适用于各种模型、任务和输入。
局部性对于 Transformer 来说是不可或缺的，VOLO 和 Swin 分别在分类和密集预测任务中占主导地位。
卷积 patch 化茎（即使用卷积生成patch，如）和早期卷积阶段（CoAtNet）显著提高了 Transformer 的精度，尤其是在大型模型上，因为这样的组合可以为浅层的细粒度局部特征提供相互帮助。
深层 Transformer 潜力巨大，如 Refined-ViT 和 CaiT。然而，由于模型大小与通道维度成二次方增长，因此深度 Transformer 中它们之间的权衡值得进一步研究。
CeiT 和CvT 展示了显著的优势在训练小型或中型模型（0−40M）时，这表明这种用于轻量级模型的混合注意块值得进一步探索。

2）视觉变压器发展趋势综述

Transformer 骨干在去年兴起。当我们的系统学与这些模型的时间线相匹配时，可以清楚地追踪到 Transformer for image classification 的发展趋势（前面的图 1）。作为一种自注意力机制，视觉 Transformer 主要根据 NLP 中的 vanilla 结构（ViT 和 iGPT）或 CV 中基于注意力的模型（VTs 和 BoTNet）重新设计。

然后，许多方法开始将 CNN 的层次结构或深层结构扩展到视觉 Transformer。T2T-ViT、PVT、CvT 和 PiT 的共同动机是将层次结构转移到 Transformer 中，但它们执行下采样的方式不同。CaiT、Diverse Patch、DeepViT 和 Refiner 专注于深度 Transformer 中的问题。此外，一些方法转向内部组件以进一步增强先前 Transformer 中的图像处理能力，即位置编码、MHSA 和 MLP。

下一波 Transformer 是局部范式。他们中的大多数通过引入局部注意力机制或卷积将局部性引入 Transformer。如今，最新的监督式 Transformer 正在探索结构组合和缩放定律。除了有监督的 Transformers，自监督学习在视觉 Transformers 中占了很大一部分。然而，目前尚不清楚哪些任务和结构对 CV 中的自监督 Transformer 更有利。

3）浅谈替代方案

在视觉 Transformer 的开发过程中，最常见的问题是 Transformer 是否可以取代卷积。通过回顾过去一年的改善历史，没有性能不足的迹象。视觉 Transformer 已经从一个纯粹的结构回归到一个混合的形式，全局信息逐渐回归到一个与局部信息混合的阶段。 虽然 Transformer 可以等价于卷积，甚至比卷积具有更好的建模能力，但这种简单有效的卷积运算足以处理底层的局部性和低级语义特征。在未来，两者结合的思想将推动图像分类的更多突破。

5. 检测中的 Transformer

在本节中，作者详细介绍了用于目标检测的视觉 Transformer，它可以分为两类：作为颈部（neck）的 Transformer 和作为主干（backbone）的 Transformer。颈部检测器主要是基于 Transformer 结构的一种新表示，称为目标查询，即一组学习的参数均等地聚合全局特征。这些方法尝试在提高收敛速度或改进性能方面提供最佳融合范式。除了专门为检测任务设计的各种颈部外，一部分骨干检测器也考虑了特定的策略。最后，本文比较了它们之间的性能，然后分析了 Transformer 检测器的一些潜在的改进。

5.1 Transformer 颈部

作者首先回顾 DETR，这是最开始的一个 Transformer 检测器，它提供了一个新的表示目标查询，将对象检测制定为一个集合预测问题。由于其对小物体的准确性低和收敛速度慢，人们从三个方面努力改进这种 Transformer 检测器：稀疏注意力、空间先验和结构重设计。此外，本文还回顾了自监督的应用。

最初的检测器：DEtection with TRansformer (DETR)

DETR是第一个端到端的 Transformer 检测器，它消除了手工设计的表示和非极大值抑制（NMS）后处理，通过引入目标查询和集合预测直接检测所有对象。具体地，DETR 使用编码器-解码器 Transformer 作为颈部，以及使用 FFN 作为预测头（如上图所示）。

稀疏注意力的 Transformer

在 DETR 中，解码器嵌入和全局特征之间的密集交互会消耗大量计算资源并减慢 DETR 的收敛速度。因此，一些努力旨在设计依赖于数据的稀疏注意力来解决这个问题，例如 Deformable DETR 和 ACT。接着作者描述了在稀疏注意力中的几个重要改进：Deformable DETR、ACT、SMCA、Conditional DETR、Two-Stage Deformable DETR 和 Efficient DETR。

重新设计结构的 Transformer

除了聚焦于交叉注意力的改进外，一些工作还重新设计了仅编码器的结构来直接避免解码器的问题。例如，TSP 继承了集合预测的思想，并放弃了解码器和目标查询。YOLOS 结合了 DETR 的编码器-解码器颈部和 ViT 的仅编码器主干，来重新设计仅编码器的检测器。

自监督学习的 Transformer 检测器

受到自然语言处理中取得成功的预训练 Transformer 的启发，Dai 等人提出无监督预训练DETR（UP-DETR）从三个方面辅助监督训练：

从给定图像中随机裁剪的一个 path 分配给所有目标查询。解码器的目标是定位 patch 位置。
为了避免在预训练中对定位的过度偏见，提出了一个辅助重建任务来保留有判别性的特征。
基于单个查询 patch，多查询定位将多个 patch 分配给不同的目标查询，以模仿多目标检测任务并加速收敛。每个 patch 查询都是通过掩码注意力和目标查询混洗独立预测的。

UP-DETR 在小数据集上比 DETR 获得了更高的精度和更快的收敛速度，甚至在训练数据充足的情况下性能更好。

5.2 Transformer 骨干

作者在本文中回顾了许多用于图像分类的基于 Transformer 的主干。这些主干可以很容易地合并到各种框架中（例如，MaskR-CNN、RetinaNet、DETR 等）来执行密集预测任务。除了一般的改进外，它们中的一部分也有利于改进密集预测任务。层次结构将 Transformer 构造为一个从高分辨率到低分辨率的过程来学习多尺度特征，如 PVT。局部增强结构将主干构建为局部到全局的组合，以有效地提取短程和长程的视觉依赖性并避免二次计算开销，例如 Swin-Transformer、ViL 和 Focal Transformer。下表3在密集预测任务中比较了基于视觉 Transformer 框架的模型。基于 Transformer 的主干比当前 CNN 模型的性能高 2-6.8%，这证明了 Transformer 在密集预测方面的有效性。

表2. Transformer 颈和 CNN 在 COCO 2017 验证集上的性能

与 FPN 类似，Zhang 等人通过结合非局部 [14] 和多尺度特征的特性，提出了一种专用于密集预测任务的特征金字塔 Transformer（FPT）[75]。它利用三个注意力组件来建模跨空间和尺度的交互，包括自注意力、自上而下的交叉注意力和自下而上的跨通道注意力。FPT 作为密集预测任务的通用主干，在许多 SOTA 模型上获得进一步提升。

5.3 讨论

本节在表2和表3中简要比较和分析了 Transformer 检测器。对于 Transformer 颈，本文只关注它们在单尺度特征结构中的 FLOPs，而不是多尺度特征，因为它们应用了不同的层数。从稀疏注意力（SA）的角度来看，Deformable DETR 减少了 8 GFLOPs 并缩短了 12 倍的训练时间，而 ACT-DC5 将计算成本从 187 GFLOPs 降低到 156 GFLOPs，并且性能损失很小。从空间先验（SP）的角度来看，one-stage 检测器显示地将空间先验与目标查询分开，带来快速收敛和高精度。SMCA 和 Conditional DETR 在 108 个训练 epoch 时分别达到了 42.7% 和 43% 的 mAP。two-stage 检测器和 TSP-RCNN 都用 proposals 替换了学习到的目标查询。这种本质上相同但结构上不同的方法显着提高了检测器的准确性。从多尺度 (MS) 特征的角度来看，它可以补偿 Transformer 在小物体检测上的性能。例如，Deformable DETR 和 SMCA 将 DETR 提高了 5.2% 和 3.1% 。仅编码器的结构减少了 Transformer 层数，但过度增加了 FLOPs，例如具有 537 GFLOPs 的 YOLOS-B。相比之下，编码器-解码器的结构是 GFLOPs 和层数之间的一个很好的权衡，但更深的解码器层可能会导致长时间的训练过程和过度平滑的问题。因此，将 SA 集成到具有 MS 和 SP 的深度解码器中值得进一步研究。

对于分类，有许多主干的改进，但很少有工作涉及密集预测任务。基于本文提出的分类法，很容易将现有方法分为两部分：分层的 Transformer 和局部增强的 Transformer。未来，作者预计 Transformer 主干将加入深度高分辨率网络来解决密集预测任务。

6. 分割中的 Transformer

Transformer 以两种方式广泛应用于分割：基于 patch 的 Transformer （patch-based Transformer）和基于查询的 Transformer （query-based Transformer）。后者可以进一步分解为带有目标查询的 Transformer（Transformer with object query）和带有掩码嵌入的Transformer（Transformer with mask embedding）。

6.1 基于 patch 的 Transformer

为了扩展感受野，CNN 需要大量的解码器堆叠来将高级特征映射到原始空间分辨率。相比之下，依靠全局建模能力，基于 patch 的 Transformer 将输入图像视为 patch 序列，并将它们送到一个柱状 Transformer 编码器中。这种分辨率不变策略使 Transformer 能够仅包含一个相对简单的解码器，并为分割任务获得理想的性能。此外，一些工作（SETR、TransUNet、Segformer）尝试研究基于 patch 的 Transformer 与不同分割框架（Mask R-CNN、U-net）之间的最佳组合。

6.2 基于查询的 Transformer

查询（Query）是 Transformer 解码器输入和输出处的一个可学习的嵌入。与 patch 嵌入相比，查询嵌入可以更“公平”地整合每个 patch 的信息。有着集合预测损失的基于查询的 Transformer 能够删除其他手工制作的表示和后处理。最近，许多努力试图将这种表示推广到可以分为两类的分割任务。一类框架是由检测任务监督的目标查询所驱动。另一类的查询仅由分割任务监督，称为掩码嵌入。

用目标查询的 Transformer（Transformer with Object Queries）

基于目标查询的方法有三种训练方式：

基于 DETR 的预训练目标查询，一个带有查询的掩码头通过分割任务进一步细化（上图9（a）所示），如 Panoptic DETR。
代替多阶段训练过程，目标查询由一些端到端框架中的检测和分割任务同时建模（上图9（b）所示），如 Cell-DETR、VisTR。
用混合级联网络构建不同任务分支之间的差距，其中检测框的输出用作掩码头的输入（上图9（c）所示），如 QueryInst。

用掩码嵌入的 Transformer（Transformer with Mask Embeddings）

另一类的 Transformer 框架努力使用查询直接预测掩码，本文将这种基于学习掩码的查询称为掩码嵌入。与目标查询不同，掩码嵌入仅由分割任务监督。如上图 9（d）所示，两个不相交的查询集并行用于不同的任务，例如：ISTR 和 SOLQ。对于语义分割和无框框架，一些研究从基于查询的 Transformer 中删除对象查询，并直接通过掩码嵌入来预测掩码（上图 9（e）），如 Max-DeepLab、Segmenter 和 Maskformer（严格意义上说 Maskformer 结合了 box-free 和 box-based 方法，使用 box-based 来增强 box-free 的效果）。

6.3 讨论

作为一项基础但仍具有挑战性的任务，分割也从不断发展的视觉 Transformers 中受益。本文根据三种不同的分割子任务（语义分割、实例分割和全景分割）总结了这些 Transformer。

下表 4 侧重于语义分割任务的 ADE20K 验证集（170 个类别）。作者发现 Transformer 在有大量类而不是较小类的数据集上进行训练可以显示出巨大的性能改进。

下表 5 侧重于评估实例分割任务的 COCO test-dev 2017 数据集。显然，带有掩码嵌入的 Transformer 在分割和检测任务中都超越了以往流行的模型。这些方法显著提高了 box 的准确率，但对分割只有轻微的改进，从而导致和的性能存在巨大差距。基于级联框架，QueryInst 在 Transformer 模型中获得了 SOTA 性能。因此，Transformer 与混合任务级联结构的结合值得进一步研究。

下表 6 侧重于评估全景分割任务。Max-DeepLab 通常通过掩码预测的方式解决全景分割任务中的前景和背景，而 Maskformer 成功地将此方式用于语义分割并统一了语义和实例级分割任务。基于它们在全景分割领域的表现，可以得出结论：Transformer 可以将多个分割任务统一到一个具有掩码预测的无框框架中。

表4. UperNet 和基于 Transformer 的模型在 ADE20K Val 中语义分割任务上的对比

表5. Transformers 和有代表性的CNNs 在 COCO test-dev 中实例分割任务上的对比

表6. 三种有代表性的 Transformers 在 COCO 全景 MiniVal 中全景分割任务上的对比

7. 讨论和总结

7.1 总结最近的改进

基于之前的比较和讨论，作者简要总结了三个基本任务（分类、检测和分割）的最新改进。

对于分类，深的层次的 Transformer 主干可有效降低计算复杂度并避免深层中的特征过度平滑。同时，早期的卷积足以捕获低级特征，可以显着增强鲁棒性并降低浅层的计算复杂度。 此外，卷积投影和局部注意机制都可以提高Transformer的局部性。前者也可能是一种替代位置编码的新方法。
对于检测，Transformer 颈部受益于编码器-解码器结构，其计算量少于仅编码器的 Transformer 检测器。因此，解码器是必要的，但由于其收敛速度慢，因此只需要很少的堆叠即可。此外，稀疏注意力有利于降低计算复杂度并加速 Transformer 的收敛，而空间先验有利于Transformer的性能，收敛速度稍快。
对于分割，编码器-解码器 Transformer 模型可以通过一系列可学习的掩码嵌入将三个分割子任务统一为掩码预测问题。这种无框的方法在多个基准测试中取得了最新的 SOTA （MaskFormer）。此外，基于框的 Transformer 的特定混合任务的级联模型被证实可以在实例分割任务中获得更高的性能。

7.2 视觉 Transformer 的讨论

尽管有大量的视觉 Transformer 模型和应用，但对视觉 Transformer 的“基本”理解仍然效率低下。因此，本文将重点关注一些关键问题，以帮助解决读者的困惑。

7.2.1 Transformer 如何弥合语言和视觉之间的鸿沟

Transformer 最初是为机器翻译任务而设计的。在语言模型中，以句子的每个词为基本单元，代表高层次、高维的语义信息。这些词可以嵌入到低维向量空间表示中，因此称为词嵌入。在视觉任务中，图像的每个像素都是低级、低维的语义信息，与嵌入特征不匹配。因此，迁移到视觉任务的关键是构建图像到矢量的转换并保持图像的特征。例如，ViT 通过强松弛条件将图像转换为具有多个低级信息的 patch 嵌入，而 Early Conv. 和 CoAtNet 利用卷积来提取高级信息并减少 patch 中的冗余特征。

7.2.2 Transformer、自注意力与 CNN 的关系

从卷积的角度来看，如上提到的 4.3 节，其归纳偏置主要表现为局部性、平移不变性、权重共享、稀疏连接。这种简单的卷积核可以有效地执行模板匹配，但由于其具有强烈的归纳偏差（因为很快就可以收敛学习好了），其上限低于 Transformer。

从自注意力机制的角度来看，如上提到的 4.2 和 4.4 节，当给定足够数量的头时，它理论上可以表达任何卷积层。这种全注意力操作可以交替地结合局部和全局级别的注意力，并根据特征的关系动态生成注意力权重。即便如此，它的实用性也较差，准确率低于 SOTA CNN，计算复杂度更高。

从 Transformer 的角度来看，Dong 等人证明当在没有短连接或 FFNs 的深层训练时，自注意力层会表现出对“令牌均匀性（token uniformity）”的强烈归纳偏见。得出的结论是，Transformer 由两个关键组件组成：一个 self-attention 层聚合了 token 的关系，一个 position-wise FFN 提取了输入的特征。尽管 Transformer 具有强大的全局建模能力，如 4.3 节和 7.2.1 节所述，卷积可以有效处理低级特征，增强 Transformer 的局部性，并通过填充附加位置特征。

7.2.3 不同视觉任务中的可学习到的嵌入

Transformer 模型采用可学习的嵌入来执行不同的视觉任务。从监督任务的角度来看，这些嵌入可以分为类标记、目标查询和掩码嵌入。从结构上看，它们之间是有内在联系的。最近的 Transformer 方法主要采用两种不同的模式：仅编码器结构和编码器-解码器结构。每个结构由三个层次的嵌入组成，如上图 10 所示。从位置层次，学习嵌入在仅编码器的 Transformer 中的应用被分解为初始令牌（initial token）和后期令牌（later token），而学习的位置编码和学习的解码器输入嵌入被应用于编码器-解码器结构。从数量层面来看，仅编码器的设计会应用不同数量的令牌。例如，ViT 家族和 YOLOS 将不同的数字标记附加到初始层，而 CaiT 和 Segmenter 利用这些标记来表示最后几层的不同特征。在编码器 - 解码器结构中，解码器的学习位置编码（目标查询或掩码嵌入）在显式 [28]、[137] 或隐式 [69] 中附加到解码器的输入中。与常数输入不同，Deformable DETR 采用学习嵌入作为输入并加入到编码器的输出。

受多头注意力设计的启发，多初始的标记策略应该能进一步提高分类性能。然而，DeiT 表明这些额外的令牌会收敛到相同的结果，这对 ViT 没有好处。从另一个角度来看，YOLOS 提供了一种通过使用多个初始令牌来统一分类和检测的范式，但这种仅编码器的设计会导致计算复杂度过高。根据CaiT 的观察，后面的 class token 可以减少 Transformer 的一些 FLOPs 并略微提高性能（从79.9%到80.5%）。Segmenter 还展示了该策略在分割任务中的效率。

与带有仅编码器 Transformer 的多个后期令牌（later token）相比，编码器-解码器结构节省了更多的计算。它通过使用一小组目标查询（掩码嵌入）来标准化检测和分割领域中的 Transformer 方法。通过结合多个后期令牌和目标查询（掩码嵌入）的形式，像 Deformable DETR 这样的结构，它们对目标查询和可学习的解码器嵌入（相当于多个后期令牌）作为输入，可以将基于不同任务的可学习嵌入统一到 Transformer 编码器-解码器中。

7.3 未来的研究方向

Visual Transformer 方法取得了巨大的进步，并显示出在多个基准上接近或超过 SOTA CNN 方法的有希望的结果。然而，该技术太不成熟，无法颠覆卷积在 CV 领域的主导地位。基于 7.2 中的分析，作者指出了视觉 Transformer 的一些有前途的未来方向，以进一步进行整体串联。

1）集合预测：如上 7.2.3 节所述，由于损失函数的梯度相同，额外的类标记（token）将一致收敛。具有二分损失函数的集合预测策略已广泛应用于许多密集预测任务中的视觉 Transformer 里。如之前提到的，为分类任务考虑集合预测设计是很自然的，例如多类标记 Transformer 通过集合预测来预测混合 patch 图像，这类似于 LV-ViT 的数据增强策略。此外，在集合预测策略中的一对一标签分配导致早期过程中的训练不稳定，这可能会降低最终结果的准确性。使用其他标签分配和损失来改进集合预测可能有助于新的检测框架。

2）自监督学习：自监督 Transformer 预训练规范了NLP领域，并在各种应用中取得了巨大成功。作为 CV 中的自监督范式，卷积孪生网络采用对比学习来执行自监督预训练，这与 NLP 中的基于 mask 的自编码器不同。最近，一些研究尝试设计一种自监督的视觉 Transformer，以弥合视觉和语言之间预训练方法的差距。他们中的大多数继承了 NLP 中的掩码自编码器或 CV 中的对比学习方案。但是，没有像 NLP 中的 GPT-3 那样革命性的用于视觉 Transformer 的特定监督方法。如上 7.2.3 节所述，编码器-解码器结构可以通过学习的解码器嵌入和位置编码来统一视觉任务。用于自监督学习的编码器-解码器 Transformer 值得我们进一步研究。

7.4 总结

在 ViT 证明了其在 CV 任务中的有效性后，视觉 Transformer 受到了相当多的关注，并削弱了 CNN 的主导地位。在本文中，本文全面回顾了 100 多个 Transformer 模型，这些 Transformer 模型已先后应用于各种视觉任务中，包括分类、检测和分割。对于每个任务，提出了一种具体的分类法来组织最近开发的 Transformer 方法，并在各种流行的基准上对它们的性能进行了评估。通过对这些方法的综合分析和系统比较，本文总结了具有显著改进的方法，讨论了视觉 Transformer 的三个基本问题，并进一步提出了未来有希望的几个潜在研究方向。

——The End——