简单盘点 CVPR2020 的图像合成论文

算法猿的成长

共 7778字,需浏览 16分钟

 ·

2020-08-03 10:13

点击上方“算法猿的成长“,关注公众号,选择加“星标“或“置顶

总第 147 篇文章,本文大约 3500 字,阅读大约需要 10 分钟

前言

本文将简单盘点在 CVPR2020 上的图像合成方面的论文,然后给出下载地址以及开源代码 github(如果有开源)。

原文:https://evgenykashin.github.io/2020/06/29/CVPR2020-Image-Synthesis.html

注意:作者介绍的这些论文都还没深入研究并做笔记,所以像 StyleGAN2 和 StarGAN2 并没有在下方介绍的论文列表中。以及一些视频是在 youtube 上的,目前搬运了几个视频到 b 站上:

b 站视频地址:https://www.bilibili.com/video/BV1xh411Z729/

欢迎关注我的 b 站账号,觉得不错的可以给我一键三连,谢谢!

图像合成论文介绍

1. Cross-Domain Correspondence Learning for Exemplar-Based Image Translation

采用一张样例图片通过分割蒙版的方式生成图片。生成图片过程的风格都来自这张样例图片。实际上,如果有任意图片分割,还能允许你编辑任意的图片。通过分割图和样例图,算法可以用不同的编码器提取特征到同一个隐式空间中,接着它们会寻找相互之间如何扭曲以及扭曲样例图片,然后加入通过 AdaIN 得到特征的生成器,一起进一步提升性能。

论文的介绍可以查看这个视频:

https://youtu.be/RkHnQYn9gR0

论文的下载地址:https://arxiv.org/abs/2004.05571

论文官网:https://panzhang0212.github.io/CoCosNet/

开源代码:https://github.com/microsoft/CoCosNet

2. SEAN: Image Synthesis with Semantic Region-Adaptive Normalization


尽管 SPADE 可以通过分割蒙版生成一个不错的图片,但作者认为还不够好。因此,作者给 SPADE 加入了一个正则化块,这样除了分割图外,还加入了风格的信息。风格信息会用单独的编码器对图像的每个区域进行编码。通过这种方式,你可以改变面部不同部位的风格来生成混合的风格。

论文介绍的视频:https://youtu.be/0Vbj9xFgoUw

论文下载地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Zhu_SEAN_Image_Synthesis_With_Semantic_Region-Adaptive_Normalization_CVPR_2020_paper.pdf

开源代码:https://github.com/ZPdesu/SEAN

3. SegAttnGAN: Text to Image Generation with Segmentation Attention


AttnGAN 的升级版本--这是一个实现通过文本生成一张图片的网络模型。在这个升级版本中,文本编码器将可以对句子和单独的词语提取特征,而之前它只是一个多尺度生成器。此外,分割蒙版将由相同的 embedding 通过自注意机制来生成,然后蒙版会通过 SPADE 块喂入生成器中。

论文下载地址:https://arxiv.org/abs/2005.12444

4. FaR-GAN for One-Shot Face Reenactment

通过一张照片对人脸的编辑。SPADE 生成器开始于bottleneck 网络层,它来自一个输入是原始照片的编码器。而 SPADE 模块会采取一个新的人脸姿势的观点。另外,会加入噪音。

论文下载地址:https://arxiv.org/abs/2005.06402

5.  NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

这篇论文是视图合成方向。该方法适合每个场景一个单独的模型(~30秒),它在场景中的坐标和方向产生一个视图,然后进入渲染。它会拍摄场景相关的照片。它是通过区分渲染训练的。这项工作允许你在场景中生成飞行视频,改变灯光。

论文介绍:https://www.matthewtancik.com/nerf

论文下地址:https://arxiv.org/abs/2003.08934

开源代码地址:https://github.com/bmild/nerf

6. Learning to Simulate Dynamic Environments with GameGAN

通过下一帧的预测来模拟简单的 2d 游戏。这是一个世界模型的再造(最早来自Schmidhuber)。有趣的技巧是你可以改变背景。

详细的论文介绍:https://youtu.be/4OzJUNsPx60

论文下载地址:https://arxiv.org/abs/2005.12126

7.Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild


“最佳论文”的获得者。这篇论文的算法模型可以让你只需要采用一张照片即可得到一个 3d 模型,不需要其他额外的标签。但仅适用于对称的物体,比如人脸(或者说几乎就只能是人脸)。根据照片的不确定性的映射,深度,纹理,视点和光线进行预测。以差异化的呈现服务所有人(17年)。丢失-恢复原始照片。但它对于一些定义不明确的任务是不起作用的。这就是为什么他们使用对称-他们翻转纹理,值得信任的映射和阴影,从而可以在对称物体上发挥作用。

可以通过下面这个链接来体验这篇论文的工作:

http://www.robots.ox.ac.uk/~vgg/blog/unsupervised-learning-of-probably-symmetric-deformable-3d-objects-from-images-in-the-wild.html

论文地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Wu_Unsupervised_Learning_of_Probably_Symmetric_Deformable_3D_Objects_From_Images_CVPR_2020_paper.pdf

开源代码地址:https://github.com/elliottwu/unsup3d

8. Advancing High Fidelity Identity Swapping for Forgery Detection


基于 one-shot的换脸方法,通过 SPADE 来得到源图的脸部几何,AdaIN 得到目标图片的脸部一致性,然后再通过第二个模型来优化结果,该模型的输入是第一步的合成结果以及源图和结果的差异,这可以有助于处理脸部缺失的部位或者物体。

论文介绍:https://youtu.be/qNvpNuqfNZs

论文地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Li_Advancing_High_Fidelity_Identity_Swapping_for_Forgery_Detection_CVPR_2020_paper.pdf

9.  Disentangled Image Generation Through Structured Noise Injection

这篇论文作者喜欢 StyleGAN 可以生成不同的人脸,但对不能通过全局的隐式编码修改图片的局部部位感到不满意。因此,作者对原始的 StyleGAN 进行了修改。修改的内容包括:

  • 提供的张量不再是常数4x4x512的输入张量,而是通过通道分为4个逻辑部分。
  • 全局代码在空间部分为1 (1x1被扩展为4x4)。
  • 共享2x2(扩展为4x4),本地4x4。
  • 生成器中的AdaIN仍然存在,每个代码都是单独生成的。

通过这些修改可以实现在不影响全局的情况下,对人脸的局部位置进行修改。

论文的介绍:https://youtu.be/7h-7wso9E0k

论文下载地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Alharbi_Disentangled_Image_Generation_Through_Structured_Noise_Injection_CVPR_2020_paper.pdf

开源代码:https://github.com/yalharbi/StructuredNoiseInjection

10.Cascade EF-GAN: Progressive Facial Expression Editing With Local Focuses

该论文提出一个可以改变人脸表情的网络。在 image2image 的基础上添加了2个修改。局部改变眼睛,鼻子,嘴巴,然后连接起来。渐进式编辑——将结果通过网络运行几次。

论文下载地址:https://arxiv.org/abs/2003.05905

11.PSGAN: Pose and Expression Robust Spatial-Aware GAN for Customizable Makeup Transfer

该论文是介绍一个实现化妆变换的方法,通过一个注意力机制解决了先前方法中的问题,即无法对姿势或者光照有很大的差别的情况进行转换化妆效果。采用的注意力是放在源图的瓶颈层和参考图片的瓶颈层之间。除了对抗损失外,还采用了不少的其他损失函数。

论文地址:https://arxiv.org/abs/1909.06956

开源代码地址:https://github.com/wtjiang98/PSGAN

12.MixNMatch: Multifactor Disentanglement and Encoding for Conditional Image Generation

该论文的方法可以实现生成部件的图片,将其分成背景,形状,纹理和姿势。另外对每个实体都有不同的编码器。

论文下载地址:https://arxiv.org/abs/1911.11758

开源代码:https://github.com/Yuheng-Li/MixNMatch

13.Learning to Shadow Hand-Drawn Sketches

论文主要是实现给素描图添加阴影效果。作者收集了一个 1000 张素描图片以及对应阴影的小数据集,然后硬编码了光照的 26 个不同位置,并采用 image2image 来预测阴影的蒙版。

论文下载地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Zheng_Learning_to_Shadow_Hand-Drawn_Sketches_CVPR_2020_paper.pdf

开源代码:https://github.com/qyzdao/ShadeSketch

14.Reusing Discriminators for Encoding: Towards Unsupervised Image-to-Image Translation

这篇论文是对 image2image 在转换非成对数据的改进。改进点主要是通过复用判别器中的部分编码器。

论文下载地址:https://arxiv.org/abs/2003.00273

15. Unpaired Portrait Drawing Generation via Asymmetric Cycle Mapping

对绘制的脸进行非配对的image2image转换。修正以前方法的缺点。该方法主要的特点是,前向循环一致性不需要像后向那样严格,这允许在生成一个绘制的脸的时候,让生成器更加自由。

论文下载地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Yi_Unpaired_Portrait_Drawing_Generation_via_Asymmetric_Cycle_Mapping_CVPR_2020_paper.pdf

开源代码:https://github.com/yiranran/Unpaired-Portrait-Drawing

16.SketchyCOCO: Image Generation From Freehand Scene Sketches

在之前的工作里有将分割、文本、边界框甚至单独的素描转换成照片的,但是并没有做将照片转换为手绘素描图,而本文的工作就是这个。该方法的实现分为两个步骤:

  1. 生成前景的物体,尽量做到精准;
  2. 生成背景部分的内容,这部分会比较自由,并不需要太严格的匹配输入的树或者云朵等。

作者自己构造了基于素描的照片数据集,其中动物是会替代为数据库中最相似的手绘动物,背景也是类似的做法。

实验结果非常的有趣,如上图 a 转到 e 图。

论文下载地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Gao_SketchyCOCO_Image_Generation_From_Freehand_Scene_Sketches_CVPR_2020_paper.pdf

17.BachGAN: High-Resolution Image Synthesis From Salient Object Layout

现在 image2image 已经可以很好地通过图像分割生成图片。但对于完整的语义图的效果还不够好,反倒是获得带有标签的捆绑盒要容易得多。但生产类似的标签结果是很困难的,所以本文作者在生成器部分加入这样的帮助,给生成器加入来自数据集中和完整分割标签相似的背景信息。

论文下载地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Li_BachGAN_High-Resolution_Image_Synthesis_From_Salient_Object_Layout_CVPR_2020_paper.pdf

开源代码:https://github.com/Cold-Winter/BachGAN

18.Neural Rerendering in the Wild

这是对去年工作的一个改进。之前的工作可以实现在一组景点的照片上,通过经典的方法得到一个3d点云,然后训练image2image模型,通过地标在点云中的呈现来恢复地标的原始照片。你可以得到正常的结果,但问题是会带有模糊的游客人群,以及不同的环境条件(天气,一天的时间)。

而本文的解决方法就是对外观采用单独的编码器,这会对环境条件进行编码,并使用语义分割。根据推理结果,您可以确定一天的时间和天气,以及删除人员。

论文介绍:https://youtu.be/E1crWQn_kmY

论文下载地址:https://openaccess.thecvf.com/content_CVPR_2019/papers/Meshry_Neural_Rerendering_in_the_Wild_CVPR_2019_paper.pdf

开源代码地址:https://github.com/google/neural_rerendering_in_the_wild

19. Attentive Normalization for Conditional Image Generation

在 GANs 中加入注意力机制的效果非常好,正如最早加入注意力机制的SA -GAN(Self-Attention GAN)模型中展示的结果。但在空间尺度上,特征图的复杂度是二次复杂度,作者利用自己的拐杖使其复杂性变得线性化,他们还解释了应该在模型中中学习什么语义场景图。方法的效果和速度超过了baseline 方法。

论文下载地址:https://openaccess.thecvf.com/content_CVPR_2020/supplemental/Wang_Attentive_Normalization_for_CVPR_2020_supplemental.pdf

开源代码地址:https://github.com/shepnerd/AttenNorm

20.Freeze the Discriminator: a Simple Baseline for Fine-Tuning GANs

论文给出这样的观点:简单冻结判别器的前几层,反倒比对整个 GAN 进行 finetuning 的效果要更好,而且更容易收敛。

论文下载地址:https://arxiv.org/abs/2002.10964

开源代码地址:https://github.com/sangwoomo/FreezeD


小结

文章里总共盘点了 20 篇图像合成的论文,并给出简单的方法介绍,然后部分论文还带有视频介绍。

在后台回复“图像合成”,即可获取本文介绍的 20 篇论文。






精选AI文章

1.  2020年计算机视觉学习指南

2. 基于 opencv 的图像处理入门教程

3. 编写高效的PyTorch代码技巧(上)

4. 编写高效的PyTorch代码技巧(下)

5. 深度学习算法简要综述(上)

6. 深度学习算法简要综述(下)

7. 10个实用的机器学习建议

8. 实战|手把手教你训练一个基于Keras的多标签图像分类器



精选python文章


1.  python数据模型

2. python版代码整洁之道

3. 快速入门 Jupyter notebook

4. Jupyter 进阶教程

5. 10个高效的pandas技巧


精选教程资源文章

1. [资源分享] TensorFlow 官方中文版教程来了

2. [资源]推荐一些Python书籍和教程,入门和进阶的都有!

3. [Github项目推荐] 推荐三个助你更好利用Github的工具

4. Github上的各大高校资料以及国外公开课视频

5. GitHub上有哪些比较好的计算机视觉/机器视觉的项目?

欢迎关注我的微信公众号--算法猿的成长,或者扫描下方的二维码,大家一起交流,学习和进步!

 

如果觉得不错,欢迎点赞、在看、分享三连,谢谢!


浏览 49
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报