火爆全网,却只有4页!ICLR爆款论文「你只需要Patch」到底香不香?
![](https://filescdn.proginn.com/a710cccdc4f92ee8bb97c36403ce3135/b348c5bec944ef95c30a687cc0c61f65.webp)
新智元报道
新智元报道
来源:网络
编辑:好困 霜叶
【新智元导读】顶会投稿竟只写4页?拳打ViT,脚踢MLP,Patch到底能不能成为ALL YOU NEED?
金秋十月,又到了ICLR截稿的季节!
一篇「Patches are all you need」横空出世。
堪称ICLR 2022的爆款论文,从国外一路火到国内。
509个赞,3269个转发
知乎热搜
这篇标题里不仅有「划掉」还有「表情」的论文,正文只有4页!
https://openreview.net/pdf?id=TVHS5Y4dNvM
此外,作者还特地在文末写了个100多字的小论文表示:「期待更多内容?并没有。我们提出了一个非常简单的架构和观点:patches在卷积架构中很好用。四页的篇幅已经足够了。」
这……莫非又是「xx is all you need」的噱头论文?
你只需要PATCHES
这个特立独行的论文在一开篇的时候,作者就发出了灵魂拷问:「ViT的性能是由于更强大的Transformer架构,还是因为使用了patch作为输入表征?」
众所周知,卷积网络架构常年来占据着CV的主流,不过最近ViT(Vision Transformer)架构则在许多任务中的表现出优于经典卷积网络的性能,尤其是在大型数据集上。
然而,Transformer中自注意力层的应用,将导致计算成本将与每张图像的像素数成二次方扩展。因此想要在CV任务中使用Transformer架构,则需要把图像分成多个patch,再将它们线性嵌入 ,最后把Transformer直接应用于patch集合。
在本文中作者提出了一个极其简单的模型:ConvMixer,其结构与ViT和更基本的MLP-Mixer相似,直接以patch作为输入,分离了空间和通道维度的混合,并在整个网络中保持同等大小和分辨率。不同的是,ConvMixer只使用标准的卷积来实现混合步骤。
作者表示,通过结果可以证明ConvMixer在类似的参数量和数据集大小方面优于ViT、MLP-Mixer和部分变种,此外还优于经典的视觉模型,如ResNet。
ConvMixer模型
ConvMixer由一个patch嵌入层和一个简单的完全卷积块的重复应用组成。
大小为p和维度为h的patch嵌入可以实现输入通道为c、输出通道为h、核大小为p和跨度为p的卷积。
ConvMixer模块包括depthwise卷积(组数等于通道数h的分组卷积)以及pointwise卷积(核大小为1×1)。每个卷积之后都有一个激活函数和激活后的BatchNorm:
在多次应用ConvMixer模块后,执行全局池化可以得到一个大小为h的特征向量,并在之后将其传递给softmax分类器。
ConvMixer的实例化取决于四个参数:
「宽度」或隐藏维度h(即patch嵌入的维度) 「深度」或ConvMixer层的重复次数d 控制模型内部分辨率的patch大小p 深度卷积层的核大小k
实验结果
![](https://filescdn.proginn.com/a7ba94ebb7954dec10518d57dc3400d4/2c4e0a3c76b09d47d370a749ab4709dc.webp)
![](https://filescdn.proginn.com/3d7c99cd1d6845c5624e845d4ed0da54/b9825714156f4b6c9c372b7c80fddf69.webp)
![](https://filescdn.proginn.com/f536780dbd7251dddfddd25b3bc24e0d/6956462aedcb4b6d558b1660b71e276f.webp)
算法实现
![](https://filescdn.proginn.com/9d228834741a51d78f8fb8625858aee3/21f2acb4360e2a6ffee7c6e1f15ff14f.webp)
网友评论
网友评论
![](https://filescdn.proginn.com/b3cf7b933d40e6cd02b43323898b6c0f/c6ffbe25c27b4ffb179da2a29bb649a9.webp)
![](https://filescdn.proginn.com/395ad28fb1a73edd32a03a1f106ba947/efccd9e53afc4a7ee194a403f54b4a6a.webp)
![](https://filescdn.proginn.com/cd6e61a55b419feb4f8c19f6876b5312/89ceb0b72db3d8932ef42a6285299ee2.webp)
![](https://filescdn.proginn.com/9cc8c2522e410ce5b3339208fe310600/d7eb51f5a04917ef8c737fafba78c66d.webp)
![](https://filescdn.proginn.com/822e7dace8de564472d7e946cbb88f9b/16aeb9da7b2f284f9ff829267085780f.webp)
![](https://filescdn.proginn.com/95c4d1170bc2c025eb88810e8907c48f/87c44486a8d04245f89fb8b26e397898.webp)
![](https://filescdn.proginn.com/0fc7009676fbc5509ad478b36771fdc3/11f19cf33cf03b100e3337c545f637a3.webp)
![](https://filescdn.proginn.com/879373e6b025e6cce424e30276c1e3ec/81da45fa5b8486202a23d495fcedc303.webp)
参考资料:
https://www.zhihu.com/question/492712118
https://openreview.net/pdf?id=TVHS5Y4dNvM