TransGAN:纯粹而又强大

机器学习与生成对抗网络

共 2156字,需浏览 5分钟

 ·

2021-05-10 08:53

作者:知乎—wangj

地址:https://www.zhihu.com/people/qi-yue-wu-yi-51-6

近段时间来,Transformers不仅在NLP领域中大放异彩,而且在CV领域也不断有研究人员将其使用到各个任务上,比如分类,检测,分割,TransGAN论文作者就将Transformers结构作为GAN网络的主结构,完全抛弃CNN结构,通过使用数据增强和多任务训练,使得模型的最高性能几乎能匹敌目前最好的GAN模型。

01

模型结构
模型的结构并没有太大的创新,如下图所示,但是为了减少Generator的内存占用,使用了一些技巧,也就是图中左半部分的UpScaling模块,这个模块使用了上采样算法pixelshuffle,通过减少通道数,也就是图中的C,使得图片的H,W扩大,如图中的(8x8xC)变成(16x16xC/4).
以上都是generator部分,而对于discriminator部分,直接将图片切分成8x8大小的小图片,然后将图片拉平,则输入就变成了(batch_size,HxW,C),然后在首位加上[CLS],在加上positional embedding,通过多个transformers encoder后,只需要将cls对应的输出作判断。


02

模型训练技巧
通过将TransGAN和AutoGAN的生成器和判别器分别组合,得到了4组实验,结果如下图所示,其中IS值越大越好,FID值越小越好,发现Transformers作为生成器的效果并不差,而作为判别器的结果就不太行了,所以论文中认为Transformers作为判别器时不能得到充分的训练。
Transformers模型的优势一般只有在数据量充分大的时候才能取得很好的结果,于是作者使用了第一个训练技巧:数据增强,通过DiffAug获得大量的数据,继续训练得到了更好的结果,如下图所示,模型的效果大大提升了,比起目前最好的模型来说当然还有一定的差距,但是相比于未使用数据增强之前,提升的效果相当明显。
尽管提升效果明显,但是相比于最好的模型还是有不小的差距,在NLP中,多任务预训练使得模型效果更强,而且在GAN模型中,使用自监督的训练任务,比如角度预测,能使模型的训练更稳定,于是第二个技巧就是多任务共同训练,作者提出了一个自监督的任务来训练生成器,将真实图片通过下采样得到一个低分辨率的图片,然后将低分辨率的图片作为生成器的输入,将最后的输出和真实图片作比较,如下图所示,LR表示低分辨率的图片,SR表示模型最后输出的高分辨率的图片,使用的损失函数为MSE(均方误差),另外这部分损失还需要乘上一个相关系数λ,论文中将其设定为50
从下图的结果来看,这将模型的性能提升了一点,但是相比于数据增强,提升的效果并不是很大。
上图中还有一个local init,这是另一个技巧,论文中称为Locality-Aware Initialization for Self-Attention,从名称中可以看出这是针对self-attention模块的操作,self-attention的本质就是每个“word”对其他所有“word”的相关性,论文中在一开始并没有让“word”和其他所有“word”进行计算得到相关性,而是只和周围的几个“word”进行交互,mask代码如下图所示,就是对于当前所在的“word”来说,只和左右两个方向的w个“word”进行相关性计算。
N代表的是HxW

03

模型效果
论文中给出了4种大小的模型,如如下图所示,depth指的是生成器部分三个部分的Transformers encoder的数量,其中效果最好的就是最大的模型,这也符合常理,在数据充分的情况下,模型越大能学到的东西就越多。
当然这只是模型自己的效果,还没和其他模型做对比,论文给出了在两个数据上和其他模型的结果对比,下图一是在CIFAR-10数据上的结果,下图二是在STL-10数据上的结果。

04

结论
从论文中的结果来看,纯粹采用Transformers作为GAN模型的主体效果在一定程度上还是不错的,当然这不是说基于Transformers的模型一定比基于CNN的模型有前途,只是作为一种选择。

本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。


猜您喜欢:


等你着陆!【GAN生成对抗网络】知识星球!

超100篇!CVPR 2020最全GAN论文梳理汇总!

附下载 | 《Python进阶》中文版

附下载 | 经典《Think Python》中文版

附下载 | 《Pytorch模型训练实用教程》

附下载 | 最新2020李沐《动手学深度学习》

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 | 超100篇!CVPR 2020最全GAN论文梳理汇总!

附下载 |《计算机视觉中的数学方法》分享


浏览 52
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报