FastViT快速卷积 Transformer 的混合视觉架构

联合创作 · 2023-09-26 07:04

FastViT 有机地结合了 CNN 和 Transformer 的优势，无论在精度或者运行效率上均有了稳定的提升。FastViT 引入了一种新的 Token 混合算子，命名为 RepMixer。从名字来看，它结合了结构重新参数化技术。该算子的作用原理是通过消除网络中的 skip connection 来降低内存访问成本。

FastViT 整体框架图：

实验结果表明，FastViT：

在移动设备上的速度比混合 Transformer 架构 CMT 快 3.5 倍
在 ImageNet 数据集上的精度相同，但速度比 EfficientNet 快 4.9 倍且比 ConvNeXt 快 1.9 倍
在相似的延迟下，FastViT 在 ImageNet 上的 Top-1 精度比 MobileOne 高出 4.2％

浏览 19

点赞

收藏

分享

举报

评论

图片

表情

Trio-ViT | 专门针对高效 ViTs 的卷积 Transformer混合架构的加速器！

AI人工智能初学者

Inception Transformer混合架构！iFormer：灵活移植Inception的卷积与最大池化

FAIR重新设计纯卷积新架构ConvNeXt，卷积再超Transformer！

AI人工智能初学者

计算机视觉中的Transformer

小白学视觉

计算机视觉中的Transformer

超越ConvNeXt！Transformer 风格的卷积网络视觉基线模型Conv2Former

视觉 Transformer 综述

机器学习与生成对抗网络

收藏 | 计算机视觉中的Transformer

小白学视觉

卷积核扩大到51x51，新型CNN架构SLaK反击Transformer

Transformer新架构：DPT！替代卷积网络做密集预测

AI算法与图像处理