FastViT快速卷积 Transformer 的混合视觉架构

联合创作 · 2023-09-26 07:04

FastViT 有机地结合了 CNN 和 Transformer 的优势,无论在精度或者运行效率上均有了稳定的提升。FastViT 引入了一种新的 Token 混合算子,命名为 RepMixer。从名字来看,它结合了结构重新参数化技术。该算子的作用原理是通过消除网络中的 skip connection 来降低内存访问成本。

FastViT 整体框架图:

实验结果表明,FastViT:

  • 在移动设备上的速度比混合 Transformer 架构 CMT 快 3.5 倍
  • 在 ImageNet 数据集上的精度相同,但速度比 EfficientNet 快 4.9 倍且比 ConvNeXt 快 1.9 倍
  • 在相似的延迟下,FastViT 在 ImageNet 上的 Top-1 精度比 MobileOne 高出 4.2%

浏览 6
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报