CVPR2021论文能修复马赛克？香港理工大学新研究，修复模糊图像！-技术圈

来源：CVPR2021

编辑：LRS

深度学习无所不能，一张打满了马赛克的脸也能通过模型的「想象」来消除。

但这不禁让人思考，通过深度学习训练出来人脸，还叫「图像修复」吗？也许叫「生成」更靠谱一些！

香港理工大学在CVPR2021上发表了一篇论文，GAN Prior Embedded Network for Blind Face Restoration in the Wild，可以将模糊的图片变清晰。

例如这张经典的1927年召开的索尔维会议，当把图像放大到200%的时候，就会变得模糊，根据修复技术，则可以重见清晰。

有网友表示，还原（restore）这个词可能是，不能保证那个人看起来就是那个样子，或许「重新想象」更为恰当。

相比之前的工作，生成的图片更加真实。

严重损坏的人脸图像复原（Blind face restoration）是一个非常具有挑战性的问题。

由于问题的严重性和复杂的未知退化，直接训练深层神经网络往往不能得到满意的结果。

现有的基于生成对抗性网络(GAN)的方法可以产生更好的结果，但往往会产生过于平滑的修复。

这篇论文提出了一种新的人脸图像生成方法，首先学习一个用于高质量人脸图像生成的 GAN，并将其嵌入到 U-shaped DNN 中作为先验解码器，然后用一组合成的低质量人脸图像对先验嵌入的 GAN DNN 进行微调。

设计 GAN 模块是为了保证从 DNN 的深度和浅度特征分别生成 GAN 的潜码和噪声输入，控制重建图像的全局人脸结构、局部人脸细节和背景。

论文提出的 GAN 预嵌入式网络(GPEN)具有易于实现、可视化生成逼真结果的特点。

实验表明，所提出的 GPEN 取得了显着优于sota的 BFR 方法在定量和定性，尤其是在野外严重退化的人脸图像恢复的结果。

论文中提出的GPEN网络的架构：

(a) 是一个GAN先验网络

(b)是一个GAN块的细节部分

(c)是GPEN的完整的架构

GAN先验网络U-Net在许多图像恢复任务中得到了成功和广泛的应用，并证明了它能够保存图像细节。

因此，GPEN总体上遵循U-shaped编码器-解码器架构。

GAN先验网络应设计成满足两个要求：

1）能够生成高质量的人脸图像；

2）它可以很容易地嵌入到U-shaped GPEN中作为解码器。

受最先进的GAN架构的启发，例如StyleGAN，使用映射网络将潜码z投射到纠缠度较小的空间w∈ W中。然后将中间码w扩散到每个GAN块。

由于GAN-prior网络将嵌入Ushaped DNN中进行微调，因此我们需要为跳过由U-shaped DNN的编码器提取的特征映射。

除此之外，训练数据还提供额外的噪声输入到每个块中。

对于GAN块的构造，有几种选择。在这项工作中采用了StyleGAN v2的架构，因为其生成HQ图像的能力很强(其他可供选择的GAN架构，如StyleGAN v1、PGGAN和BigGAN也可以很容易被GPEN采用）

GAN的块数等于U形DNN中提取的跳过特征映射的个数（和噪声输入的个数），与输入人脸图像的分辨率有关。

StyleGAN在每个GAN块中需要两个不同的噪声输入。

不同于StyleGAN，为了使GAN先验网络能够容易地嵌入到U形GPEN中，噪声输入以相同的空间分辨率重复应用到所有的GAN块中。

此外，在StyleGAN中，噪声输入被串联而不是添加到卷积中。

研究人员经验性地发现，这可以带来更多的细节来还原的人脸图像。

完整的网络架构：一旦使用一些数据集（例如FFHQ）训练了GAN先验网络后，将其嵌入U形DNN中作为解码器。

潜在的代码z和噪声输入到GAN网络被替换为输出全连接层（即较深的特征）和较浅的各层的编码器的DNN，这将控制重建全局人脸结构，局部人脸细节，以及人脸图像的背景。

因为该模型是不完全卷积的低质量人脸图像，输入到GPEN之前首先调整到所需的分辨率（例如1024*1024)使用简单的双线性插值。

在嵌入之后，整个GPEN将进行微调，以便将编码器部分和解码器部分可以学习适应彼此。

参考资料：

https://www.reddit.com/r/artificial/comments/o221ni/gpen_restores_extremely_degraded_faces_that_is/

-往期精彩-