[ACM MM 2023]基于扩散模型的风格图像和谐化-技术圈

背景

图像合成（Image Composition）是指将前景从一张图片上剪切下来，然后粘贴到另一张图片上，生成一张合成图片的技术。但通过这种方式获得的合成图片，其前景和背景会存在色彩、光照等统计信息不一致的问题，这导致整张图片看起来不真实、不和谐。图像和谐化（Image Harmonization）任务旨在调整合成图片中的前景区域的外观表现，使其与背景一致，使合成图片变得更加真实和谐。在实际应用中，用户也可能从照片上剪切下来一个前景物体，然后粘贴到一张油画背景上，期望生成一张艺术风格的合成图。如下图所示，

在通过剪切粘贴得到的合成图片中，前景的色彩、纹理、笔触等风格信息与背景明显不一致，导致整张图看起来不真实。我们通过风格图像和谐化（Painterly Image Harmonization）来解决这类合成图片不和谐的问题，目标是将真实世界的物体融入到一幅艺术绘画图中，实现视觉上的和谐与统一。我们首次将扩散模型引入风格图像和谐化，相比之前的方法在视觉效果上有显著提升。论文发表在ACM MM 2023, 代码和模型已开源：

论文：https://arxiv.org/pdf/2308.02228.pdf

代码模型：https://github.com/bcmi/PHDiffusion-Painterly-Image-Harmonization

方法

针对这个任务，现有的方法大致可以分为两类：基于优化的方法和前馈方法。基于优化的方法通过最小化所设计的损失函数来优化合成图像，这使得它们非常耗时并不适用于实时应用。而前馈方法主要依赖生成对抗网络（GAN），训练好的模型可以直接生成和谐的图像。然而，基于GAN的方法在复杂前景的控制上存在局限性，导致前景协调效果不理想，例如内容和风格细节的丢失。

因此我们提出基于扩散模型的风格化图像和谐网络（PHDiffusion），模型名字传承自我们实验室上一个工作PHDNet。我们的PHDiffusion在稳定扩散（Stable Diffusion）模型的基础上利用了两个额外的模块，一个是轻量编码器，一个是双编码器融合模块。其中，轻量编码器是受条件扩散模型（T2I-Adapter）的启发，旨在从合成图像中提取所需的条件信息，即背景风格、图像内容。自适应编码器以合成图像和前景掩码的串联作为输入，产生添加到去噪编码器中特征图的残差。基于自适应编码器和扩散模型中的去噪编码器，我们引入了一个双编码器融合（DEF）模块来融合两个编码器的信息。具体而言，给定两个编码器提取的图像特征，我们的双编码器融合模块将背景风格融入前景内容中并生成风格化的前景特征。然后，来自两个编码器的风格化前景特征被组合在一起，在去噪步骤中提供多步引导。

为了利用预训练的稳定扩散模型中丰富的先验知识并减轻训练负担，我们冻结了稳定扩散模型的模型参数，并仅在训练过程中更新自适应编码器和双编码器融合模块。扩散模型中使用的标准噪声损失可以保持图像内容，但无法将背景风格迁移到前景上。因此，我们进一步引入了两个额外的风格损失，即AdaIN损失和对比风格损失，以平衡前景对象的风格和内容。AdaIN损失将前景对象的多尺度统计数据（例如均值、方差）与背景绘画进行对齐，而对比风格损失旨在将前景风格推向背景风格。此外，我们还引入了内容损失来解决仅使用噪声损失时内容过于保留的问题。通过噪声损失、风格损失和内容损失，我们的PHDiffusion能够理解背景风格并保持前景内容。在测试中，我们的PHDiffusion可以直接用于生成协调的图像，避免了额外的耗时推理优化。

实验

为了验证我们的PHDiffusion的有效性，我们将其与最先进的方法进行比较，并在基准数据集COCO和WikiArt上进行实验。由于风格图像和谐化任务没有靠谱的量化指标，主要还是依靠user study。实验结果表明，我们的PHDiffusion能够实现一定程度上令人愉悦的结果，而之前的方法则无法达到这样的效果，尤其是在背景具有密集纹理或抽象风格的情况下。我们方法PHDiffusion（最右边一列）和之前方法的对比效果图如下：