TransGAN：纯粹而又强大-技术圈

作者：知乎—wangj

地址：https://www.zhihu.com/people/qi-yue-wu-yi-51-6

近段时间来，Transformers不仅在NLP领域中大放异彩，而且在CV领域也不断有研究人员将其使用到各个任务上，比如分类，检测，分割，TransGAN论文作者就将Transformers结构作为GAN网络的主结构，完全抛弃CNN结构，通过使用数据增强和多任务训练，使得模型的最高性能几乎能匹敌目前最好的GAN模型。

模型结构

模型的结构并没有太大的创新，如下图所示，但是为了减少Generator的内存占用，使用了一些技巧，也就是图中左半部分的UpScaling模块，这个模块使用了上采样算法pixelshuffle，通过减少通道数，也就是图中的C,使得图片的H,W扩大，如图中的(8x8xC)变成(16x16xC/4).

以上都是generator部分，而对于discriminator部分，直接将图片切分成8x8大小的小图片，然后将图片拉平，则输入就变成了(batch_size,HxW,C)，然后在首位加上[CLS]，在加上positional embedding，通过多个transformers encoder后，只需要将cls对应的输出作判断。

模型训练技巧

通过将TransGAN和AutoGAN的生成器和判别器分别组合，得到了4组实验，结果如下图所示，其中IS值越大越好，FID值越小越好，发现Transformers作为生成器的效果并不差，而作为判别器的结果就不太行了，所以论文中认为Transformers作为判别器时不能得到充分的训练。

Transformers模型的优势一般只有在数据量充分大的时候才能取得很好的结果，于是作者使用了第一个训练技巧：数据增强，通过DiffAug获得大量的数据，继续训练得到了更好的结果，如下图所示，模型的效果大大提升了，比起目前最好的模型来说当然还有一定的差距，但是相比于未使用数据增强之前，提升的效果相当明显。

尽管提升效果明显，但是相比于最好的模型还是有不小的差距，在NLP中，多任务预训练使得模型效果更强，而且在GAN模型中，使用自监督的训练任务，比如角度预测，能使模型的训练更稳定，于是第二个技巧就是多任务共同训练，作者提出了一个自监督的任务来训练生成器，将真实图片通过下采样得到一个低分辨率的图片，然后将低分辨率的图片作为生成器的输入，将最后的输出和真实图片作比较，如下图所示，LR表示低分辨率的图片，SR表示模型最后输出的高分辨率的图片，使用的损失函数为MSE（均方误差），另外这部分损失还需要乘上一个相关系数λ，论文中将其设定为50

从下图的结果来看，这将模型的性能提升了一点，但是相比于数据增强，提升的效果并不是很大。

上图中还有一个local init，这是另一个技巧，论文中称为Locality-Aware Initialization for Self-Attention，从名称中可以看出这是针对self-attention模块的操作，self-attention的本质就是每个“word”对其他所有“word”的相关性，论文中在一开始并没有让“word”和其他所有“word”进行计算得到相关性，而是只和周围的几个“word”进行交互，mask代码如下图所示，就是对于当前所在的“word”来说，只和左右两个方向的w个“word”进行相关性计算。