英伟达又一个GAN！PoE-GAN，AI绘图细节拉满，看完直接沸腾了！-技术圈

点击下方“AI算法与图像处理”，一起进步！

重磅干货，第一时间送达

大家好，我是阿潘～

最近已经入职新公司了，开启 965 的生活，也开始做新的项目了。最近在适应新环境，不过我依然会努力分享有趣的前沿成果哈。过年的时候，收到小伙伴的私信，说多分享一些实战的内容，以后我也会多多总结一些常见的坑，和大家一起学习成长。

回归正题，今天跟大家分享一篇英伟达的最新成果

提出了一个新的生成对抗网络 (PoE-GAN) 框架，该框架可以合成以多种输入模式或其任何子集为条件的图像。即可以文本 + 分割、文本 + 草图或分割 + 草图等等合成高质量的图像结果。

论文标题：

Multimodal Conditional Image Synthesis with Product-of-Experts GANs

论文、代码和主页链接：

http://arxiv.org/abs/2112.05130

https://deepimagination.cc/PoE-GAN/

摘要

现有的条件图像合成框架基于单一模态中的用户输入生成图像，例如文本、分割、草图或样式参考。它们通常无法在可用时利用多模式用户输入，这降低了它们的实用性。为了解决这一限制，我们提出了专家产品生成对抗网络 (PoE-GAN) 框架，该框架可以合成以多种输入模式或其任何子集为条件的图像，甚至是空集。PoE-GAN 由专家产品生成器和多模态多尺度投影判别器组成。通过我们精心设计的训练方案，PoE-GAN 学会了合成高质量和多样性的图像。除了提高多模态条件图像合成的最新技术水平外，PoE-GAN 在单模态条件下进行测试时也优于现有的最佳单模态条件图像合成方法。

生成效果：

解读

Product-of-Experts

我们的目标是训练一个单一的生成模型，该模型可以捕获以任意模态子集为条件的图像分布。在本文中，我们考虑了四种不同的模式，包括文本、语义分割、草图和样式参考。直观地说，每个输入模态都会增加一个合成图像必须满足的约束。满足所有约束的图像集合是集合的交集，每个集合都满足一个单独的约束。如下图所示，我们通过假设联合条件概率分布与单条件概率分布的乘积成比例来对此进行建模。在此设置下，要使产品分布在某个区域具有高密度，则每个单独的分布都需要在该区域具有高密度，从而满足每个约束。这也被称为 product-of-experts。