在几年前,要说 AI 能直接用一段文字描述生成清晰的图像,那可真是天方夜谭。后脚就跟着放出 NÜWA「女娲」对标 DALL-E。今年 1 月,OpenAI 官宣了 120 亿参数的 GPT-3 变体 DALL-E。论文地址:https://arxiv.org/pdf/2102.12092.pdf
为了在不同场景下同时覆盖语言、图像和视频,团队设计了一个三维变换器编码器 - 解码器框架,它不仅可以处理作为三维数据的视频,还可以适应分别作为一维和二维数据的文本和图像。此外,论文还提出了一个 3D 邻近注意(3DNA)机制,以考虑视觉数据的性质并降低计算的复杂性。NÜWA 模型的整体架构包含一个支持多种条件的 adaptive 编码器和一个预训练的解码器,能够同时使图像和视频的信息。模型支持所有文本、图像、视频输入,并将他们统一视作 token 输入,所以可以定义一个统一的向量表示 X,维度包括高度 h、宽度 w,时间轴上的 token 数量 s,每个 token 的维度 d。文本天然就是离散的,所以使用小写后的 byte pair encoding (BPE)来分词,最终的维度为 1×1×s×d 中。因为文本没有空间维度,所以高度和宽度都为 1。图像输入是连续的像素。每个图像输入的高度为 h、宽度为 w 和通道数为 c。使用 VQ-VAE 训练一个编码把原始连续像素转换为离散的 token,训练后 B [z] 的维度为 h×w×1×d 作为图像的表示,其中 1 代表图像没有时序维度。视频可以被视为图像的一种时序展开,最近一些研究如 VideoGPT 和 VideoGen 将 VQ-VAE 编码器中的卷积从 2D 扩展到 3D,并能够训练一种针对视频输入的特殊表征。
但这种方法无法使图像和视频的表示统一起来。研究人员证明了仅使用 2D VQ-GAN 就能够编码视频中的每一帧,并且能生成时序一致的视频,结果表示维度为 h×w×s×d,其中 s 代表视频的帧数。
对于图像素描(image sketch)来说,可以将其视为具有特殊通道的图像。
H×W 的图像分割矩阵中每个值代表像素的类别,如果以 one-hot 编码后维度为 H×W×C,其中 c 是分割类别的数目。通过对图像素描进行额外的 VQ-GAN 训练,最终得到图像 embedding 表示维度为 h×w×1×d。同样地,对于视频草图的 embedding 维度为 h×w×s×d。
基于统一的 3D 表示,文中还提出一种新的注意力机制 3D Nearby Self-Attention (3DNA) ,能够同时支持 self-attention 和 cross-attention。
然后将条件 C 和一个堆叠的 3DNA 层输入到编码器中来建模自注意力的交互。解码器也是由 3DNA 层堆叠得到,能够同时计算生成结果的 self-attention 和生成结果与条件之间的 cross-attention。对于 T2I 和 T2V 任务,C^text 表示文本条件。对于 V2V 任务,由于没有文本输入,所以 c 为一个常量,单词 None 的 3D 表示,θ 表示模型参数。
作者使用 FID-k 和 Inception Score(IS)来分别评估质量和种类,并使用结合了 CLIP 模型来计算语义相似度的 CLIPSIM 指标。公平起见,所有的模型都使用 256×256 的分辨率,每个文本会生成 60 张图像,并通过 CLIP 选择最好的一张。可以看到,NÜWA 以 12.9 的 FID-0 和 0.3429 的 CLIPSIM 成绩,明显地优于 CogView。作者在 Kinetics 数据集上与现有的 SOTA 进行了比较,其中,在 FID-img 和 FID-vid 指标上评估视觉质量,在生成视频的标签准确性上评估语义一致性。显然,NÜWA 在上述所有指标上都取得了 SOTA。作者定性地比较了 NÜWA 的 zero-shot 图像补全能力。作者在 BAIR 数据集上进行了定量比较,其中,Cond. 表示预测未来帧的帧数。为了进行公平的比较,所有的模型都使用 64×64 的分辨率。尽管只给了一帧作为条件(Cond.),NÜWA 仍将 FVD 的 SOTA 得分从 94±2 推至 86.9。通过定性比较在 MSCOCO 上的表现可以看到,与 Taming-Transformers 和 SPADE 相比,NÜWA 生成的图像种类更多,有的甚至连窗户上的反射也清晰可见。在 MSCOCO 数据集上与 SOTA 的定性比较作者以 zero-shot 的方式对 NÜWA 和现有 SOTA 进行了定性的比较。与 Paint By Word 相比,NÜWA 表现出了很强的编辑能力,在不改变图像其他部分的情况下,产生了高质量的结果。这得益于通过对各种视觉任务进行多任务预训练而学到的真实世界的视觉模式。比如在第三个例子中,由 NÜWA 生成的蓝色卡车更加逼真,而且后方的建筑物也没有产生奇怪的变化。另一个优点是 NÜWA 的推理速度,只需要 50 秒就能生成一幅图像,而 Paint By Words 在推理过程中需要额外的训练,并需要大约 300 秒才能收敛。以 zero-shot 方式与现有 SOTA 进行定性比较
文章提出了一种统一的预训练模型 NÜWA,这个女娲不光能补天,也能造图,可以为 8 个视觉合成任务生成新的或操作现有的图像和视频。还提出了一个通用的 3D encoder-decoder 框架,能够同时覆盖文本、图像和视频。能同时考虑空间和时序维度的 3D nearby-sparse attention 机制。这也是迈向人工智能平台的重要一步,能够让计算机拥有视觉,并辅助内容创作者生成一些人类想象力以外的事。
参考资料:
https://arxiv.org/abs/2111.12417
https://github.com/microsoft/NUWA