OpenAI新研究：扩散模型在图像合成质量上击败BigGAN，多样性还更佳-技术圈

来源：AI科技评论

本文约3600字，建议阅读5分钟
本文介绍了OpenAI新研究：扩散模型在图像合成的最新技术。

新模型在ImageNet512×512上实现了3.85FID，甚至在每个样本只有25次正向传递的情况下，其生成图像质量可匹敌DeepMind提出的BigGAN。

1 扩散模型在图像合成上击败了BigGAN

2021年5月，Alex Nichol和Prafulla Dhariwal两位学者发表了《Diffusion Models Beat GANs on Image Synthesis》，文中证明了扩散模型在图像合成上优胜于目前最先进的生成模型的图像质量。

论文地址：https://arxiv.org/abs/2105.05233

代码地址：https://github.com/openai/guided-diffusion

研究人员通过一系列的消融实验，以找到更好的扩散模型架构，实现无条件的图像合成。对于条件图像合成，则使用分类器指导（利用分类器的梯度以来权衡样本质量-多样性）进一步提高了样本质量。

作者在ImageNet 128×128上达到2.97的FID，在ImageNet 256×256上达到4.59的FID，在ImageNet512×512上达到7.72的FID，并且即使每个样本只有25次正向传递，其生成图像质量依然可以匹配BigGAN-deep，同时保持了更好的分布覆盖率（多样性）。最后，作者发现分类器指导与上采样扩散模型可以很好地结合在一起，从而将ImageNet512×512上的FID进一步降低到3.85。

DeepMind曾于2018年在一篇 ICLR 2019 论文中提出了BigGAN，当时一经发表就引起了大量关注，很多学者都不敢相信AI竟能生成如此高质量的图像，这些生成图像的目标和背景都相当逼真，边界也很自然。

由BigGAN模型生成的512x512分辨率图像

如今，Alex Nichol和Prafulla Dhariwal两位学者提出的扩散模型，在图像合成上终于可匹敌BigGAN。

从最佳ImageNet512×512模型(FID3.85)中选择的样本

据PapersWithCode数据显示，目前在ImageNet数据集的从64x64到512x512分辨率的图像生成模型榜单中，本文提出的ADM模型全部占据榜首。另外，在LSUN数据集上，ADM模型图像生成能力也首屈一指。

其中，在ImageNet数据集的128x128和256x256图像生成模型榜单中，BigGAN自2018年来一直找不到对手。

2 扩散模型图像生成

在过去的几年里，生成模型已经获得了生成类似人类的自然语言、无限高质量的合成图像以及高度多样化的人类语言和音乐的能力。

虽然这些模型已经能够产生逼真的图像和声音，但是仍有很大的改进空间，而且更好的生成模型可能会对平面设计、游戏、音乐制作以及其他领域产生广泛的影响。

GANs目前在大多数图像生成任务上拥有最先进的技术，这些技术是通过样本质量来衡量的，例如FID，Inception Score 和 Precision 。其中一些指标并不能完全捕获多样性，而且与最先进的基于似然度的模型相比，GANs捕获的多样性较少。此外，如果没有精心选择的超参数和正则化器，GANs在训练中经常崩溃。

扩散模型是一类基于似然度的模型，最近被证明可以生成高质量的图像，同时提供了理想的属性，如更高的分布覆盖率，稳定的训练目标和更好的可扩展性。这些模型通过逐步去除信号中的噪声来生成样本，其训练目标可以表示为一个重新加权的变分下界。

Nichol和Dhariwal发现，随着计算量的增加，这些模型得到了可靠的改进，即使在高难度ImageNet256×256数据集上也能生成高质量的样本。然而，该模型的FID仍然不能与BigGAN-deep相比，后者是目前这个数据集上最先进的技术。

研究人员假设扩散模型和GANs之间的差距至少在两方面：第一，最近GAN文献使用的模型架构已经被大量探索和改进；第二，GAN能够权衡质量和多样性，生成高质量的样本，但不覆盖整个分布。如何将这些优势应用到扩散模型？

研究者首先改进模型结构，然后设计一个以多样性换取质量的方案。通过这些改进，实现了一个新的最先进的模型，在几个不同的指标和数据集上超过了GANs。

3 扩散模型改造

Nichol 和 Dhariwal 找到为扩散模型提供最佳样本质量的模型架构进行一些架构调整。

Jonathan Ho在论文“Denoising diffusion probabilistic models”中引入了U-Net的扩散模型架构，与先前的架构相比，该架构大大提高了样本质量，用于去噪得分匹配。

模型使用了多个残差层和下采样卷积，然后是多个残差层和上采样卷积，其中跳过连接将相同尺寸的卷积层连接起来。

此外，他们使用了一个16×16分辨率的单头全局注意力层，并且在每个残差块中添加一个时间步嵌入的投影。

Song等人在ICLR 2021杰出论文“Score-based generative modeling through stochastic differential equations”中，发现对U-Net架构的进一步改进可以提高扩散模型在CIFAR-10和CelebA-64数据集的性能。

研究人员在ImageNet128×128上展示了同样的结果，发现在更大、更多样、分辨率更高的数据集上，架构改进确实可以大大提高采样质量。

Nichol和Dhariwal探讨了以下的架构变化：

增加深度与宽度，保持模型尺寸相对恒定。
增加注意力头的数量。
使用32×32,16×16和8×8分辨率的注意力，而不仅仅是16×16。
使用BigGAN残差块对激活值进行上采样和下采样。
参考“Score-based generative modeling through stochastic differential equations”等论文，以1/√2因子重新缩放残差连接数。

研究者还研究了其他更符合 Transformer 架构的注意力配置。将注意力头固定在一个常数上，或者固定每个头的通道数。结果表明更多的头或更少的通道可以改善 FID。

不同注意力配置的消融实验结果：更多的头或更少的通道可以改善 FID

4 实验结果

为了在无条件图像生成方面评估改进的模型架构，研究者在三个LSUN数据集类别（卧室、马和猫）上训练不同配置的扩散模型。为了评估分类器指导，研究者在128×128，256×256，512×512分辨率的ImageNet数据集上训练条件扩散模型。

最先进的图像生成技术

根据下表总结，扩散模型可以在每个任务上得到最好的FID，在除一个任务外的所有任务上得到最好的sFID。

通过改进的架构，研究者已经在LSUN和ImageNet64×64图像生成上获得了最佳的性能。对于更高分辨率的ImageNet，研究者观察到扩散模型大大超过最好的GANs。这些模型生成的图像的感知质量接近GAN，同时保持了更高的分布覆盖率。

比较了来自BigGAN-deep和最佳扩散模型的随机样本质量。

虽然样本具有相似的感知质量，但扩散模型包含了比GAN更多的模式，比如放大的鸵鸟头特写，单只火烈鸟，不同方向观察的芝士汉堡，以及一条没有被人类抓着的马口鱼。

取自BigGAN-deep的样本(FID6.95，左)，与取自扩散模型的样本(FID4.59，中)和取自训练集的样本(右)（truncation=1.0）。

与Upsampling比较

为了提高高分辨率下的样品质量，Nichol等人构造了一个低分辨率扩散模型和上采样扩散模型。在这种方法中，上采样扩散模型被训练从训练集上采样图像，以低分辨率图像为条件通过一个简单的技术上采样它们(例如双线性插值)，并将结果通道级联到模型输入。

在采样过程中，低分辨率扩散模型生成一个样本，然后上采样模型以该样本为条件。这大大提高了ImageNet256×256上的FID，但不能达到BigGAN等最先进模型的性能。

研究者比较了这种上采样技术和分类器指导，并表明这两种方法从不同方面提高了样本采样质量。上采样提高了精度，，同时保持了较高的召回率。而分类器指导则提供了一个用于权衡多样性以获得更高精度的旋钮。

通过使用较低分辨率上的分类器指导，然后再上采样至较高分辨率，扩散模型在ImageNet 512×512上获得了最佳的FID，这表明这些方法是相辅相成的。

5 扩散模型的发展

现有的生成建模技术可以基于它们表示概率分布的方式大致分为两类。

第一种是基于似然的模型，它通过近似的最大似然直接学习分布的概率密度(或质量)函数。典型的基于似然的模型包括自回归模型、归一化流模型、基于能量的模型(EBMs)和变分自编码器(VAEs)。
第二种是隐式生成模型，其中概率分布是通过采样过程的模型来隐式表示的。最突出的例子是生成对抗性网络(GANs) ，它通过将随机高斯矢量与神经网络相转换来合成新的数据分布样本。

贝叶斯网络、马尔可夫随机场(MRF)、自回归模型和归一化流模型都是基于似然的模型的例子。所有这些模型都表示一个分布的概率密度或质量函数

GAN 是隐式模型的一个例子。它隐式地表示生成器网络可以生成的所有对象的分布

然而，基于似然的模型和隐式生成模型都有很大的局限性。基于似然的模型要么要求对模型结构有很强的约束，以确保似然计算的可控归一化常数，要么必须依靠替代目标来近似最大似然训练。另一方面，隐式生成模型往往需要对抗性训练，从而存在不稳定性，并可能导致模式崩溃。

基于分数的生成模型与扩散概率模型紧密相连，扩散概率模型是由Jascha Sohl - Dickstein和他的同事首先提出的一种具有多随机层的VAEs。

去年，Jonathan Ho和他的同事在论文“Denoising diffusion probabilistic models”中指出，用于训练扩散概率模型的证据下限(ELBO)基本上等同于基于分数的生成模型中的分数匹配目标的混合。此外，通过参数化的解码器作为一个序列得分为基础的模型，他们第一次证明扩散模型可以产生高质量的、可媲美GAN的图像样本。

扩散模型其与现有的模型相比有几个重要的优点：没有对抗性训练的GAN级样本质量，灵活的模型架构，精确的对数似然计算，唯一可辨识的表示学习，以及不需要重新训练模型的逆问题求解。

然而，研究者也指出，目前扩散模型相对于GAN还存在几个缺点：训练计算量更大、采样速度更慢、采样过程中需要多次前向传播、在单步模型上远不如GAN。