CVPR2022 无需人脸GAN先验,字节团队提出细节可控的人脸超分方案GCFSR
https://arxiv.org/pdf/2203.07319.pdf
人脸超分通常依赖人脸先验信息进行细节复原并保持身份信息。受益于GAN先验信息辅助,近来人脸超分取得了长足发展:或者采用复杂的模块对GAN先验进行调制,或者采用复杂训练策略对生成器进行微调。
本文提出一种生成细节可控的人脸超分方案GCFSR,它无需额外的人脸先验信息即可进行高质量人脸超分。GCFSR架构为编码器-生成器模式,同时针对多因子超分任务设计了风格调制与特征调制两个模块:风格调制模块用于生成人脸细节;特征调制模块根据输入的条件上采样因子对源自编码与生成器编码特征进行动态融合。
对于小尺寸上采样因子,所提方案仅需对抗损失即可取得令人惊讶的结果;再添加L1与感知损失后,GCFSR在大尺寸上采样因子(比如16、32)方面超越了其他SOTA方案。在测试阶段,我们可以通过连续改变输入条件上采样因子对生成强度进行调制以获得不同的生成效果。除此之外,GCFSR在复杂退化场景中也有稳定出色的表现。
1出发点
上表对近期三个SOTA图像复原方案从不同维度进行了对比,可以看到:
GLEAN依赖额外的模块进行超分,它采用RRDBNet提取特征,然后采用额外的解码器与GAN先验组合生成最终的结果; GFPGAN采用了额外的UNet用于退化移除,然后对所得特征进行变换并用于对GAN先验进行调制; GPEN则直接将编码器特征与GAN先验concat融合。
总而言之,GAN先验要么设计复杂的模块对其进行修改,后者对其进行微调适配。这就意味着:利用GAN先验进行图像复原并非一个微不足道的任务。那么,我们能否设计一个不依赖预训练GAN先验的生成模型呢?
2GCFSR
上图为GCFSR整体架构示意图,它包含一个编码器与一个生成器,编码器以LR人脸图像作为输入,提取人脸结构信息,同时估计隐特征(它将作为生成器的输入);生成器以编码器估计的隐特征、多级结构特征作为输入,通过一系列风格调制卷积进行处理后生成最终包含丰富人脸细节的人脸图像。
为处理不同上采样因子的超分任务,我们在编码器与生成器提取的多尺度特征之间添加跳过连接。特征调制模块会根据输入条件上采样因子来控制编码特征和生成特征的强度。GCFSR的编码器和生成器相互协作并生成具有高真实性的人脸图像,还可以提供灵活的用户调节机制。值得一提的是,所提方案可以从头开始端到端训练,无需进行GAN先验的预训练。
Encoder Network
编码器由stride=2的卷积网络构成并生成一系列中间特征,其中的尺寸为。输入LR图像首先双三次插值到尺寸,然后我们定义:
这里所得到编码特征包含了输入图像的多级结构信息。除此之外,我们在编码器后添加几个卷积与全连接层生成隐码特征。隐码特征进一步通过生成器生成真实人脸细节:
Generator Network
生成器以编码器的输出作为输入,通过风格调制模块与特征调制模块处理后生成包含丰富纹理细节的人脸图像。
Style Modulation 风格调制卷积是由StyleGAN2所提出,它采用隐向量对卷积核沿输入通道维度进行调制。为近似保持输入与输出之间的方差,卷积核参数在进行卷积之前先进行归一化(更多信息建议查看StyleGAN2一文),我们将整个模块表示为。生成器以的特征图c作为输入起始点,然后通过上采样与处理得到最终的输出。
针对超分任务,我们进行了如下几个改进:
首先,我们并未从常数特征图重生成特征。相反,我们直接采用编码特征,即; 然后,所提特征调试模块将对多级编码特征与生成特征进行处理得到融合结果; 因此,生成器可以同时从编码特征与生成特征受益,而无需从头开始生成。
Feature Modulation 为使得一个模型可以处理多尺度超分,输入信息保持程度与输出细节重建程度将依赖于条件上采样因子,常规的Add/Concat跳过连接无法满足上述需求。为此,我们提出了特征调制以灵活调整生成强度。条件上采样因子s首先通过MLP生成尺度向量集。在每一级,用于调整的贡献,定义如下:
Output 输出图像通过tRGB层由融合特征逐渐计算得到,描述如下:
Training Details
GCFSR以LR图像x与条件上采样因子s作为输入,输出人脸超分图像。在我们上采样+上采样组合构建LR图像,在训练阶段,上采样因子从中随机选择并规范到尺度。
GCFSR仅需对抗损失即可很好进行训练,我们采用非饱和逻辑损失:
如后续实验所表明,仅采用对抗损失训练的GCFSR已在x4和x8超分任务上超过了其他盲人脸复原方案。
为进一步提升超分性能,我们采用了常规组合损失,即L1、感知损失以及对抗损失,定义如下:
尽管GCFSR是从头开始训练,但其收敛速度更快(见上图),同时在所有GAN先验方案中取得了最佳的性能。
3Experiments
上表与图给出了不同方案的量化指标与重建效果对比,从中可以看到:
GCFSR取得了最佳PSNR与LPIPSR指标,PULSE与mGANprior则具有比GAN先验方案更差的性能。 GCFSR具有最佳的重建质量,更好的保持的身份信息。
上图给出了不同尺度调制下的效果对比,可以看到:通过连续的调整上采样因子,我们可以找到一个效果重建效果非常好的结果。值得一提的是,该调制过程可以生成平滑的过度且不会导致伪影问题。
除此之外,我们固定GCFSR的输入条件上采样因子s(比如:s=1),采用GFPGAN的退化方式,训练了一个盲人脸复原模型。实验结果表明,GCFSR的盲复原版本也能在量化指标上取得sota效果
全文到此结束,更多消融实验与分析请移步原文。
本文的研究成果同时也在字节跳动智能创作音视频团队的“臻视综合画质解决方案”中有落地,支持老照片修复、老电影修复等AI画质修复场景,更多效果可以访问:火山引擎-高清人像修复体验(https://www.volcengine.com/product/visualedit)。