从迁移学习到图像合成-技术圈

来源：知乎—牛力

地址：https://zhuanlan.zhihu.com/p/376423478

迁移学习

迁移学习现在很火，在人工智能各个领域都有广泛应用。迁移学习是一个大家族，按照迁移对象可以分为不同域 (domain) 之间的迁移，不同种类 (category) 之间的迁移，不同模型 (model) 之间的迁移，不同模态 (modality) 之间的迁移，不同任务 (task) 之间的迁移等等。

具体来说，不同域之间的迁移包括域适应 (domain adaptation) , 域泛化 (domain generalization) 等。不同种类之间的迁移包括零样本学习 (zero-shot learning) ，少样本学习 (few-shot learning) 等。不同模型之间的迁移主要包括知识蒸馏 (knowledge distillation)。不同模态之间的迁移包括多视图学习 (multi-view learning) , 特权信息学习 (learning using privileged information) 等。不同任务之间的迁移包括多任务学习 (multi-task learning) ，自监督学习 (self-supervised learning) 等。自监督学习可以看成是其中某些任务不需要人工标注的多任务学习。

我对上述研究方向多多少少都有所涉猎，博士期间主要做域适应、域泛化、多视图学习、特权信息学习等, 博士后期间转向做零样本学习，入职上交之后继续做零样本学习、开始做少样本学习、自监督学习等，其中两个重点研究的方向是零样本语义分割和少样本图像生成，感兴趣的话可以看一下我之前的公众号文章。

从迁移学习到图像合成

后来，我因为阴差阳错进入到图像合成这个领域，意识到迁移学习和图像合成之间的内在关联，便把研究方向从迁移学习扩展到图像合成。图像合成 (image composition) 是指把一张图片的前景剪切下来，粘贴到另外一张背景图片上，得到一张合成图。但是得到的合成图可能会有很多问题，比如前景和背景颜色光照不一致，前景的位置大小不合理等，这些都会让合成图看起来不真实，影响合成图的质量。图像合成的问题定义非常简洁，但是涉及到的子问题却包罗万象，这也是图像合成问题的迷人之处。

在迁移学习中，域适应和域泛化旨在解决不同域之间的不一致性，零样本学习和少样本学习旨在解决不同种类之间的不一致性。而图像合成旨在解决合成图中前景和背景之间的不一致性。图像合成可以拆分成若干子问题，分别解决不同方面的不一致性。1. 前景和背景可能是在不同拍摄环境下拍摄的，颜色光照不和谐，需要用图像和谐化 (image harmonization) 技术对前景进行调整，使其和背景看起来和谐。2. 新加的前景可能会对背景产生影响，比如阴影反光等，需要为前景物体添加合理的阴影或者反光 (shadow/reflection generation)。3. 前景的位置大小可能不合理，需要为前景找到合适的位置大小 (object placement)。4. 前景和背景的透视可能不一致，需要对前景进行几何变换 (spatial transformation)。

上述四个子问题，前两者旨在解决外观上的不一致性，后两者旨在解决几何上的不一致性。之前的相关工作致力于解决其中一个或者多个子问题，但是非常零散，不成系统，并且没有统一的数据集，不利于图像合成领域的发展。

我之所以对图像合成这个领域感兴趣主要有以下几点原因：1. 第一次看到图像和谐化任务，我就觉得它和域翻译 (domain translation) 有关系，属于我熟悉的迁移学习领域。2. 之前和Versa 初创公司合作过，他们致力于做手机版的photoshop, 图像合成是他们的一大业务，图像和谐化这个功能需求也是他们提出来的。3. 我个人是Adobe的粉丝，大一的时候花了大量时间研究photoshop, 爱好艺术设计和合成图制作。出于上述原因，我就开始做图像合成这方面的研究，但是这个方向比较小众，可能不会有high citation/impact, 并且不太好吹牛。之前写基金本子也都是从迁移学习的角度写，因为比较好吹牛。写本子的时候可以说迁移学习能够改变世界，但是很难说图像合成能够改变世界。所以现在从事图像合成方面的研究，像是在建造一个桥头堡，进可攻，退可守，一旦做不下去了就退回到迁移学习的大本营，毕竟这个大家族还有很多东西可以深挖。

相比较图像合成，图像生成的关注度要高很多，但图像生成的精细程度有时候很难满足人的需求，比如想生成一只特定的猫，即使在生成器里加很多条件信息 (conditional information)，也未必能够生成完全符合预期的猫。但是如果已经有一张理想的猫的图片，就可以把猫抠出来和背景图片结合，经过图像合成技术的处理得到一张高质量的合成图。因此，图像合成在一定程度上填补了精细化图像生成的空白。

图像合成在工业界也有一些应用，比如虚拟社交、海报设计、广告图片生成等等。我们已经和一些公司建立了合作关系，也在试图和更多公司建立合作关系。接下来，分别从图像和谐化、前景阴影生成、前景摆放几方面简单介绍一下。下面提到的数据库和方法都可以在我们实验室的GitHub主页上https://github.com/bcmi找到。

图像合成子问题

图像和谐化

图像和谐化旨在对合成图的前景进行颜色光照的调节，使其和背景和谐。比如下面这张合成图，前景和背景看起来非常不和谐，我们需要用图像和谐化的技术对前景进行调整，得到一张和谐的合成图。我们公布了图像和谐化领域首个大规模数据集iHarmony4, 通过对真实图片的前景物体做调整的方式得到成对的前景不和谐和前景和谐的图片。在iHarmony4公布之前，做图像和谐化的工作很少，但最近感觉做图像和谐化的工作逐渐多起来了。我们在后续图像和谐化研究的过程中发现了iHarmony4数据库的一些不足，也打算修正这些不足，发布一个升级版的iHarmony4。

我们从域翻译 (domain translation) 的角度考虑图像和谐化任务，先后提出了基于域验证 (domain verification) 的DoveNet和基于背景引导的域翻译 (background-guided domain translation) 的BargainNet. 我们把不同的拍摄环境（季节、天气、时间）当作不同的域，因此有无数种可能的域，并且每张图片没有明确的域标签。合成图中的前景和背景属于不同的域，我们需要对前景做域翻译，把前景转换到背景所属的域。BargainNet和DoveNet相比，方法更简洁，训练更稳定，并且可以预测一张合成图的不和谐程度。这是一个非常实用的功能，给定一张合成图，如果预测出来的和谐程度很高，就没必要再做图像和谐化了。DoveNet和BargainNet的想法很好，但说实话性能已经不是SOTA了，刷性能还是得靠调参和魔改网络结构。如果大家想做图像和谐化任务，可以多看看图像增强 (image enhancement) 和图像填充 (image inpainting) 的论文，借(抄)鉴(抄)他们的方法。

另外，我们也基于3D软件生成渲染图片，通过插件控制生成同一场景在不同拍摄环境下的一组图片，然后交换组内图片的前景，构建基于渲染图片的数据集RHHarmony。目前，RHHarmony只包含了人物前景，我们正在构建其他种类前景的渲染图片数据集。其实，图像合成的很多问题都可以用真实图片和渲染图片两条腿走路，打通真实世界和虚拟世界的壁垒。

前景阴影生成

前景物体阴影生成旨在对合成图中新加的前景物体根据背景的光照环境添加合理的阴影。之前有相关工作比如ARShadowGAN基于渲染图片做的，在3D环境中插入一个新物体，用渲染技术生成阴影，根据这种方式得到成对的前景没有阴影和前景有阴影的图片。但是该工作公布的数据库前景和背景非常简单，缺乏变化，和真实复杂场景相距甚远。我们尝试用他们的数据库和方法为真实图片的前景物体生成阴影，完全不work。所以我们仿照iHarmony4数据库的构建方式，给有阴影的真实图片人工去除阴影，得到成对的前景有阴影和前景没有阴影的图片，构建了DESOBA数据集。

前景位置摆放

前景物体摆放旨在为前景物体寻找合适的位置大小。在寻找合适位置大小的时候需要考虑诸多因素，比如物体大小是否合适，是否出现在应该出现的地方，和其它物体的遮挡关系是否合理，有没有受力支撑，透视是否合理等等。因为需要考虑的因素很多，前景物体摆放实际上是一个很复杂的问题。我们定义了前景物体摆放三个层级的任务。第一个层级的任务是给定一张合成图，判断前景的位置大小是否合理，这是一个二分类问题。第二个层级的任务是给定一个前景物体和一张背景图，得到一张合理的合成图，这是一个生成问题，或者说是搜索问题。第三个层级的任务是给定一个前景物体和一张背景图，得到所有合理的合成图。但是得到所有合理的合成图不太现实，可以降低要求，得到尽可能多的合理的合成图。

有意思的是第一层级的任务都很少有人做。我们构建了一个判断前景物体摆放是否合理的数据集OPA, 包含几万张合成图和每张合成图的合理性标签。关于第二层级和第三层级的任务，之前也有方法比如ST-GAN做过，但是局限于特殊的简单场景，我们尝试用他们的方法做真实的复杂场景，完全不work，所以这个领域还有非常大的研究空间。

构图评估

在前景物体摆放的任务中，如果已经满足了合理性的要求，我们可以提出更高的要求，不仅要合理，而且要美观，这个时候就需要考虑一些视觉平衡因素或者构图法则。在摆放前景物体的时候，不仅位置大小要合理，而且希望得到的合成图在构图方面比较美观，这就涉及到美学评估的问题。为了专门研究构图问题，我们找了美术专业的学生为接近一万张图片的构图质量进行打分，公布了构图评分CADB数据集。我们不仅需要给出构图评分，而且要提供具有可解释性的评分依据。

总结

https://bcmi.sjtu.edu.cn/~niuli/download/From_Transfer_Learning_to_Image_Composition.pdf

上述介绍的内容都可以在这个slides 里面找到，并且这个slides有更多的插图和细节描述。欢迎关注图像合成领域，欢迎关注我们实验室的工作，谢谢！

猜您喜欢：

等你着陆！【GAN生成对抗网络】知识星球！

超100篇！CVPR 2020最全GAN论文梳理汇总！

附下载 | 《Python进阶》中文版

附下载 | 经典《Think Python》中文版

附下载 | 《Pytorch模型训练实用教程》

附下载 | 最新2020李沐《动手学深度学习》

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 | 超100篇！CVPR 2020最全GAN论文梳理汇总！

附下载 |《计算机视觉中的数学方法》分享