ICCV 2021 | 国科大提出首个CNN和Transformer双体主干网络!Conformer准确率高达84.1%!
共 2473字,需浏览 5分钟
· 2021-08-19
点击上方“视学算法”,选择加"星标"或“置顶”
重磅干货,第一时间送达![](https://filescdn.proginn.com/c4b8398a3210d4fa2b4fcf33318c31dd/0cf55d80cf8032fc9ea4305d2c27aa9a.webp)
![](https://filescdn.proginn.com/1c75e8b899c49336cea4d3e0de085bd5/550f4e74392566a58d8a033e20fdb9c2.webp)
点击上方“视学算法”,选择加"星标"或“置顶”
重磅干货,第一时间送达
![](https://filescdn.proginn.com/1c75e8b899c49336cea4d3e0de085bd5/550f4e74392566a58d8a033e20fdb9c2.webp)
转载自:新智元 | 来源:arxiv
编辑:好困 Priscilla
【导读】Transformer和CNN在处理视觉表征方面都有着各自的优势以及一些不可避免的问题。因此,国科大、鹏城实验室和华为研究人员首次将二者进行了融合并提出全新的Conformer模型,其可以在不显著增加计算量的前提下显著提升了基网表征能力。
卷积运算善于提取局部特征,却不具备提取全局表征的能力。
为了感受图像全局信息,CNN必须依靠堆叠卷积层,采用池化操作来扩大感受野。
Visual Transformer的提出则打破了CNN在视觉表征方面的垄断。
得益于自注意力机制,Visual Transformer (ViT、Deit)具备了全局、动态感受野的能力,在图像识别任务上取得了更好的结果。
但是受限于的计算复杂度,Transformer需要减小输入分辨率、增大下采样步长,这造成切分patch阶段损失图像细节信息。
因此,中国科学院大学联合鹏城实验室和华为提出了Conformer基网模型,将Transformer与CNN进行了融合。
Conformer模型可以在不显著增加计算量的前提下显著提升了基网表征能力。目前,论文已被ICCV 2021接收。
Conformer: Local Features Coupling Global Representations for Visual Recognition
论文地址:https://arxiv.org/abs/2105.03889
项目地址:https://github.com/pengzhiliang/Conformer
此外,Conformer中含有并行的CNN分支和Transformer分支,通过特征耦合模块融合局部与全局特征,目的在于不损失图像细节的同时捕捉图像全局信息。
特征图可视化
对一张背景相对复杂的图片的特征进行可视化,以此来说明Conformer捕捉局部和全局信息的能力:
浅层Transformer(DeiT)特征图(c列)相比于ResNet(a列)丢失很多细节信息,而Conformer的Transformer分支特征图(d列)更好保留了局部特征;
从深层的特征图来看,DeiT特征图(g列)相比于ResNet(e列)会保留全局的特征信息,但是噪声会更大一点;
得益于Transformer分支提供的全局特征,Conformer的CNN分支特征图(f列)会保留更加完整的特征(相比于e列);
Transformer分支特征图(h列)相比于DeiT(g列)则是保留了更多细节信息,且抑制了噪声。
网络结构
![](https://filescdn.proginn.com/5e87fb348ee652b1622c45d02c1215d3/f20f128482c364ec88b47929ba1c5776.webp)
bottleneck中3x3卷积的channel比较少,使得FCU的fc层参数不会很大;
3x3卷积具有很强的位置先验信息,保证去掉位置编码后的性能。
实验结果
![](https://filescdn.proginn.com/008decc9f4e18f54106c1f36d88fd95a/e90af720b86f59f45fa4dcad30d465cf.webp)
![](https://filescdn.proginn.com/a73d95c34596eb5ba7f389220895e2ab/019849fceb0607b766816af53fc334c6.webp)
![](https://filescdn.proginn.com/4817511724c26cd8fd011b04d72e9220/5666dbccad7f13446d733ff2ee9c186e.webp)
分析总结
作者介绍
参考资料:
https://arxiv.org/abs/2105.03889
![](https://filescdn.proginn.com/f1c1972f88701850bd986dfcb66967df/17387dd1234c776ee83236aa6fc95f77.webp)
点个在看 paper不断!