Transformer在图像复原领域的降维打击！ETH提出SwinIR：各项任务全面领先-技术圈

↑ 点击蓝字关注极市平台

作者丨happy

编辑丨极市平台

极市导读

鲜少有工作将transformer用于图像复原方向，而ETH的学者近日提出基于Swin Transformer的一种强基线模型SwinIR用于图像复原，该工作在经典图像超分、真实场景图像超分、图像降噪与JPEG压缩伪影移除都取得了显著优于已有方案的性能。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

原文链接：https://arxiv.org/abs/2108.10257

code：https://github.com/JingyunLiang/SwinIR（未开源）

期待已久的SwinIR终于刊出来了，它是ETH团队在Transformer+low-level方面的最新力作，大幅超越了之前华为诺亚提出的IPT。从某种程度上来看，这篇文章没有什么创新点，只是将微软的Swin Transformer在low-level任务上进行了应用。Whatever，无论是经典图像超分(即退化方式为bicubic)，还是真实场景图像超分，亦或图像降噪与JPEG压缩伪影移除，所提SwinIR均取得了显著优于已有方案的性能。笔者这里尤其期待SwinIR在真实场景图像超分方面的应用与效果，期待作者尽快开源。

摘要

图像复原(存在已久的low-level视觉问题)旨在根据低质图像(比如，下采样的、带噪的、压缩的图像)复原高质量图像。现有优异图像复原方案往往采用CNN，鲜少有Transformer(已在high-level视觉任务中取得骄人成绩)类方案在该类问题中进行探索尝试。

本文基于Swin Transformer提出一种强基线模型SwinIR用于图像复原。SwinIR包含三部分：浅层特征提取、深层特征提取以及高质量图像重建。具体而言，深层特征提取由多个RSTB(Residual Swin Transformer Blocks)构成，每个RSTB由多个Swin Transformer层与残差连接构成。

相比CNN方案，Swin具有以下几个优势：

基于内容交互的图像内容与注意力权值可以视作空域可变卷积；
RSTB中的移位窗口机制可以进行长距离依赖建模；
更优的性能、更少的参数(可参见下图：SwinIR具有更少的参数量、更优的性能)。

我们在三个极具代表性的任务(图像超分、图像降噪以及JPEG压缩伪影移除)上进行了实验。实验结果表明：所提SwinIR能够以0.14~0.45dB优于其他SOTA方案，同时参数量降低高达67%。

方法简介

网络结构

上图给出了本文所提SwinIR网络架构示意图，很明显，它由三个部分构成：浅层特征提取、深层特征提取以及高质量图像重建模块。对于不同任务而言，所提方案的区别主要在于重建模块。

浅层及深层特征提取

给定低质输入，我们采用卷积提取浅层特征:

已有研究[ConvStem]表明: 卷积善于进行早期视觉处理，同时有助于稳化训练并取得更优结果。此外，卷积还提供了一种将输入图像映射到更高维特征空间的简单方案。然后，我们对提取深层特征：

注：表示深层特征提取模块，它由K个RSTB与一个卷积构成。更具体来说，中间特征以及深层特征的计算可以描述如下：

注：这里的卷积操作可以将卷积操作的归纳偏置引入到SwinIR中，同时为浅层特征与深层特征的聚合奠定更好的基础。

图像重建

以图像超分为例，我们通过聚合浅层与深层特征进行高质量图像重建:

注：表示重建模块。由于浅层特征主要包含低频信息，而深层特征聚焦于重建遗失的高频信息，SwinIR采用了长距离跳过连接将两者聚合进行最终的重建。

对于超分而言，重建模块由卷积与PixelShuffle构成；对于不需要上采样的任务(如降噪、JPEG压缩伪影移除)，重建模块仅由卷积构成。此外，我们采用残差学习机制重建LQ与HR之间的残差，即：

损失函数

对于图像超分，我们采用损失进行优化：

对于经典与轻量图像超分，我们近采用上述损失；对于真实世界图像超分，我们采用损失、GAN损失以及感知损失的组合以提升视觉质量。对于图像降噪与JPEG压缩伪影任务，我们采用Charbonnier损失：

残差Swin Transformer模块

上图a给出了RSTB的结构示意图，它包含多个STL、一个卷积以及残差连接。对于第个RSTB，输入特征表示为，我们首先通过L个Swin Transformer层提取中间特征:

然后，我们在残差连接之前添加一个卷积层。RSTB的输出可以描述如下：

这种设计思路有这样两个优势：

1) 尽管Transformer可以视作空间可变卷积的变种，但空间不变卷积有助于提升SwinIR的平移不变形；

2) 残差连接为不同模块到重建模块提供了等效连接，促进了不同层级特征的聚合。

Swin Transformer层

Swin Transformer Layer(STL)基于原始Transformer中的标准多头自注意力演变而来，主要区别体现在于局部注意力与移位窗口机制。前述图b给出了STL结构示意图。假设输入尺寸为，首先，将输入拆分为局部窗口并reshape为；然后，在每个窗口计算标准自注意力。对于局部窗口特征，query、key以及value计算如下：