CVPR2022 无需人脸GAN先验，字节团队提出细节可控的人脸超分方案GCFSR-技术圈

https://arxiv.org/pdf/2203.07319.pdf

人脸超分通常依赖人脸先验信息进行细节复原并保持身份信息。受益于GAN先验信息辅助，近来人脸超分取得了长足发展：或者采用复杂的模块对GAN先验进行调制，或者采用复杂训练策略对生成器进行微调。

本文提出一种生成细节可控的人脸超分方案GCFSR，它无需额外的人脸先验信息即可进行高质量人脸超分。GCFSR架构为编码器-生成器模式，同时针对多因子超分任务设计了风格调制与特征调制两个模块：风格调制模块用于生成人脸细节；特征调制模块根据输入的条件上采样因子对源自编码与生成器编码特征进行动态融合。

对于小尺寸上采样因子，所提方案仅需对抗损失即可取得令人惊讶的结果；再添加L1与感知损失后，GCFSR在大尺寸上采样因子(比如16、32)方面超越了其他SOTA方案。在测试阶段，我们可以通过连续改变输入条件上采样因子对生成强度进行调制以获得不同的生成效果。除此之外，GCFSR在复杂退化场景中也有稳定出色的表现。

1出发点

上表对近期三个SOTA图像复原方案从不同维度进行了对比，可以看到：

GLEAN依赖额外的模块进行超分，它采用RRDBNet提取特征，然后采用额外的解码器与GAN先验组合生成最终的结果；
GFPGAN采用了额外的UNet用于退化移除，然后对所得特征进行变换并用于对GAN先验进行调制；
GPEN则直接将编码器特征与GAN先验concat融合。

总而言之，GAN先验要么设计复杂的模块对其进行修改，后者对其进行微调适配。这就意味着：利用GAN先验进行图像复原并非一个微不足道的任务。那么，我们能否设计一个不依赖预训练GAN先验的生成模型呢？

2GCFSR

上图为GCFSR整体架构示意图，它包含一个编码器与一个生成器，编码器以LR人脸图像作为输入，提取人脸结构信息，同时估计隐特征(它将作为生成器的输入)；生成器以编码器估计的隐特征、多级结构特征作为输入，通过一系列风格调制卷积进行处理后生成最终包含丰富人脸细节的人脸图像。

为处理不同上采样因子的超分任务，我们在编码器与生成器提取的多尺度特征之间添加跳过连接。特征调制模块会根据输入条件上采样因子来控制编码特征和生成特征的强度。GCFSR的编码器和生成器相互协作并生成具有高真实性的人脸图像，还可以提供灵活的用户调节机制。值得一提的是，所提方案可以从头开始端到端训练，无需进行GAN先验的预训练。

Encoder Network

编码器由stride=2的卷积网络构成并生成一系列中间特征，其中的尺寸为。输入LR图像首先双三次插值到尺寸，然后我们定义：

这里所得到编码特征包含了输入图像的多级结构信息。除此之外，我们在编码器后添加几个卷积与全连接层生成隐码特征。隐码特征进一步通过生成器生成真实人脸细节：

Generator Network

生成器以编码器的输出作为输入，通过风格调制模块与特征调制模块处理后生成包含丰富纹理细节的人脸图像。

Style Modulation 风格调制卷积是由StyleGAN2所提出，它采用隐向量对卷积核沿输入通道维度进行调制。为近似保持输入与输出之间的方差，卷积核参数在进行卷积之前先进行归一化(更多信息建议查看StyleGAN2一文)，我们将整个模块表示为。生成器以的特征图c作为输入起始点，然后通过上采样与处理得到最终的输出。

针对超分任务，我们进行了如下几个改进：

首先，我们并未从常数特征图重生成特征。相反，我们直接采用编码特征，即；
然后，所提特征调试模块将对多级编码特征与生成特征进行处理得到融合结果；
因此，生成器可以同时从编码特征与生成特征受益，而无需从头开始生成。

Feature Modulation 为使得一个模型可以处理多尺度超分，输入信息保持程度与输出细节重建程度将依赖于条件上采样因子，常规的Add/Concat跳过连接无法满足上述需求。为此，我们提出了特征调制以灵活调整生成强度。条件上采样因子s首先通过MLP生成尺度向量集。在每一级，用于调整的贡献，定义如下：