极市沙龙回顾|CVPR2021-李铎:通过反转卷积的内在性质进行视觉识别

上周六,由极市平台与中国图象图形学学会联合举办的第三期极市CV开发者沙龙活动圆满结束。
本次线下沙龙的主题为CVPR2021论文研讨会。我们邀请了三位CVPR2021接收论文作者,他们分别是来自香港科技大学的李铎、来自悉尼大学的顾津锦以及来自华南理工大学的戴志港。
三位嘉宾在本次线下沙龙中完成了三场非常优质的分享,不仅为大家分享了他们发布于CVPR2021论文的工作细节与成果,还为大家讲述了CVPR2021论文工作成果和心得。同时,还与现场的同学针对多个延伸问题进行了讨论。沙龙结束后,大家纷纷表示收获颇丰。
为了让更多开发者了解本次三位分享嘉宾的优秀工作,极市对本次分享的三个报告内容进行了整理。在接下来的几天中,我们会将这三位嘉宾的分享在极市平台公众号陆续发布。
本文是对本次沙龙第一位嘉宾李铎的报告整理,他为我们分享的是他发布今年CVPR2021的工作:
Involution: Inverting the Inherence of Convolution for Visual Recognition (CVPR2021)
(通过反转卷积的内在性质进行视觉识别)
(PS:文末还有本次沙龙的现场图片~)
作者信息
论文:
https://arxiv.org/pdf/2103.06255.pdf
代码:
https://github.com/d-li14/involution
个人主页:
https://duoli.org
PPT和视频可在极市平台公众号后台回复“李铎”获取。
论文摘要:卷积作为现代神经网络中的核心构件,引发了深度学习技术在视觉领域的发展浪潮。在这篇工作中,我们重新思考了标准卷积核在空间维度和通道维度的固有特性,即空间不变性和通道特异性。与其相反地,我们通过反转以上的两个设计准则,提出了一种新颖的神经网络算子,称为“反转卷积”。另外我们解释了最近应用广泛的自注意力操作,并将其作为一种复杂的特例归入了“反转卷积”的范畴。我们提出的“反转卷积”算子可以作为基础模块替代普通卷积来搭建新一代的视觉神经网络,在不同的视觉任务中支持多种多样的深度学习模型,包括ImageNet图像分类,COCO目标检测和实例分割,Cityscapes语义分割。基于“反转卷积”的深度神经网络相较于ResNet-50对应的卷积神经网络模型,在上述任务中分别将识别准确率提升1.6%,边界框AP提升2.5%和2.4%,类别平均IoU提升4.7%,而将计算代价压缩到66%,65%,72%和57%。

完整报告
简要介绍卷积

卷积两大特性:空间不变形与通道特异性 如果要保持计算效率,就需要进行长期的自适应关系建模。


视觉识别中的Involution
与卷积两大性质(空间不变形与通道特异性)相反 Involution的具体操作 基于输入特征图生成的卷积核

一种具体的做法:如何高效的生成Involution的卷积核


Involution与自注意力的关联 多头注意力 Involution的另一个实例


在图像分类任务上与ResNet和基于自注意力的模型之间的比较

在目标检测与实例分割任务上的比较

在语义分割任务上进行对比

分割结果的可视化

消融分析

Involution卷积核的可视化


现场照片
# 极市线下沙龙






CVPR2021论文研讨会

。



2021 · 3月27日
深圳是今年极市线下沙龙的第一站,但其他城市的小伙伴不要着急,可以在下方评论区留言你期待的极市沙龙举办地点,我们的下一站说不定就会在那儿哦~
推荐阅读
2021-03-31

2021-03-27

2021-03-29


# 极市原创作者激励计划 #
