如何将Vision Transformer应用在移动端？-技术圈

【GiantPandaCV导语】

Vision Transformer在移动端应用的探索和改进，提出了不规则Patch嵌入和自适应Patch融合模块有效提升了VIT在移动端的性能表现，在DeiT基础上提升了9个百分点。

1前言

在本次工作中，研究了移动端的Vision Transformer模型，猜想Vision Transformer Block中的MSA(多头注意力)和FFN(前馈层)更适合处理High-level的信息。

我们提出的irregular patch embedding能在patch中以不同的感受野，提取丰富的信息。

最终这些处理过的patch经过adaptive patch merging模块得到最终分类结果。经过这些改进，我们在DeiT的baseline基础上，能够提升9%的精度，并且也超越了其他Vision Transformer模型。

在现有的Vision Transformer模型上，我们发现降低模型的FLOPS，其性能会严重下降。

以DeiT为例，从DeiT-Base到DeiT-Small,FLOPS降为原来的1/4，性能损失了2%

而从DeiT-Small到DeiT-Tiny，FLOPS也是降为原来的1/4，但是性能损失了7%，其他的vit架构也是类似。

所以我们猜测这些架构都是朝着有较强的特征提取能力和避免过拟合能力的大模型进行优化，从而导致信息提取效率较低。

ViT具有两个重要的模块：

也有一些ViT架构尝试将CNN的金字塔式架构引入(如swin，pvt)，但在该工作里，我们展示了瓶颈可能并不在MSA和FFN这里。

本文通过改进Patch Embedding和Patch Merging，得到了不小的提升。

分三步来介绍Irregular Patch Embedding的设计

使用卷积来做Patch Embedding，现有的论文都已经证明了卷积擅于提取low-level局部特征，为了进一步压缩计算量，我们使用了depthwise+pointwise的组合。
发现原始的14x14的patch对于移动端vit是难以处理的。一方面，如果我们想减少patch的通道数和Block的数目，那剩下的模块是无法处理如此多的patch。另一方面，我们可以通过减少patch数目，提高通道数，来得到一个平衡。
DeiT把图片切为14x14patch，每个patch都有同样的感受野。而对于不同的图片，可能需要high-level信息（比如区分狗和猫），也有可能需要low-level信息（比如区分悬崖和湖边）