CVPR录用+NTIRE冠军！清华提出首个高光谱图像重建Transformer-技术圈

新智元报道

编辑：好困 LRS

【新智元导读】清华大学、哈佛大学和苏黎世联邦理工学院等提出「多快好省」的高光谱图像重建方法 MST 及 MST++ 相继登上顶会。

话不多说，先上结果。

由上图可以得出，MST 与 MST++ 不仅消耗的计算量少，而且参数量也非常小。

如此看来，刷个 SOTA 入个顶会也是情理之中了——MST 被 CVPR 2022 接收，其改进版 MST++ 被 CVPRW 2022 接收，并且在 NTIRE 2022 Spectral Reconstruction Challlenge 中取得第一名。

首个基于Transformer的快照压缩成像方法：

论文地址：https://arxiv.org/abs/2111.07910

项目地址：https://github.com/caiyuanhao1998/MST/

首个基于Transformer的高光谱重建方法：

论文地址：https://arxiv.org/abs/2204.07908

项目地址：https://github.com/caiyuanhao1998/MST-plus-plus

高光谱图像简介

高光谱图像（Hyperspectral Image, HSI）指的是光谱分辨率在0.01λ数量级范围内的光谱图像。

相较于常规的RGB图像而言，高光谱图像有着更多的波段（即通道数更多）来更加准确全面的描述被捕获场景的特性。

在很多时候，从RGB图像中无法观测出异常，但是从高光谱图像的某一个波段中却能一眼看出问题所在。

这么说可能不太好理解，举个例子，比如在深夜，如果直接看RGB图像的话，可能是一片漆黑，但是如果通过红外夜视仪的话，就能很清晰看到发热的活物。这个红外夜视仪捕获的就是红外光谱图像。

也正因为光谱图像有着这样的特性，它被广泛地应用于目标检测与追踪，图像识别，遥感，医疗影像等领域。

那么既然高光谱图像那么有用，我们应该如何获取它呢？

传统的成像设备采用光谱仪对成像场景进行空间域通道维度的扫描，费时费力，不适用于运动场景。

近些年，科学家们专门设计了快照压缩成像（Snapshot Compressive Imaging，SCI）系统来解决这一问题。

在诸多SCI系统当中，编码孔径快照光谱成像（Coded Aperture Snapshot Spectral Imaging，CASSI）系统脱颖而出，成为捕获获取光谱图像的重要手段，其结构如图3所示

CASSI系统首先通过一个编码孔径掩膜对成像场景的各光谱通道进行调制，然后通过一个三棱镜进行色散后在相机上生成一个二维的快照估计图（compressive measurement）。

那么有一种获取高光谱图像的方法就是用CASSI结合从measurement到HSI的复原算法，我们将这样的方法记为SCI-to-HSI，如图4所示。

这种方法好不好？

好，但是还不够好。

因为CASSI的设备很贵，价格在 10,000 到 100,000 美金。不过它有一个优势就是，存储的时候只需要存储二维的measurement，这可以极大降低存储与传输数据的成本。

那么，聪明的朋友可能就会发现了，既然本质上RGB和HSI都是同一场景的不同光谱通道成像，既然深度学习模型如 CNN，Transformer 又无所不能，那我何不直接学习一个从 RGB 到 HSI 的映射呢？

而且，RGB 相机遍地都是，RGB 图像遍地都是，RGB-to-HSI 的映射要是学得好，那岂不是点石成金，想啥来啥？何必还要破费买CASSI系统？没有中间商赚我几万美金的差价，这简直是零糖零卡零负担。

正是基于 RGB-to-HSI 的构想，NTIRE 举办了 Spectral Reconstruction Challenge 并提供了相应的数据集，效果如图5所示。

这次要讲的 MST 与 MST++ 就分别针对 SCI-to-HSI 与 RGB-to-HSI 设计了历史上第一个用于高光谱图像重建的 Transformer。

高光谱图像复原算法

MST 用于 SCI-to-HSI 的高光谱图像复原

针对从 2D measurement 到 3D HSI cube 的光谱图像复原，作者提出了 Mask-guided Spectral-wise Transformer (MST)，如图6 (a) 所示。

MST是一个对称的 U 形的网络，其基本组成单元为 Mask-guided Self-Attention Block (MSAB), 如图6 (b) 所示。

MSAB 中最重要的就是 Mask-guided Spectral-wise Multi-head Self-Attention (MS-MSA)。

MSAB 包含两个 Layer Normalization (LN)，一个 MS-MSA 和一个前向神经网络 Feed Forward Network (FFN)，如图6 (c) 所示。

其中的 MS-MSA 又可以拆解为两部分，即 Mask-guided Mechanism (MM) 和 Spectral-wise Multi-head Sefl-Attention (S-MSA)。

为了避免大家觉得枯燥无味，这里就不给大家看比较琐屑的公式了，相关细节请参照原文。

S-MSA：如图7 (c1) 所示。

通常来说，之前的Transformer将一个 pixel vector 作为一个token。然而，高光谱具有空间稀疏而通道上高度相似的特性，因此，计算空间维度的 self-attention 会比计算光谱通道维度的 self-attention 更加低效。基于这样一个motivation，S-MSA 将每一个光谱通道的特征图作为一个 token 去计算 self-attention。

MM：如图7 (c2) 所示。

在 CASSI 成像过程中，我们注意到编码孔径掩膜（mask）被用来进行调制，而 mask 上各个位置的透光率不同，导致了生成 measurement 上的各个位置的保真度不同。因此为了获得保真度随空间位置变化的信息，将 mask 作为输入生成 Mask Attention Map，然后作用在 S-MSA 的 value 上。

通过改变 MST 中各层 block 的数量（N1, N2, N3）来得到一簇 MST family，他们是 MST-S (2, 2, 2), MST-M (2, 4, 4), MST-L (4, 7, 5)。

定量对比：

在 KAIST 数据集上的效果如表1 所示。参数量-计算量-性能对比如表2 所示，可以看到，我们的MST采用更少的参数量与计算量，取得了更好的效果。画成对比图的话就如图1 所示。

定性对比：

在 simulation 和 real 数据上的定性对比分别如图8和图9所示。MST恢复出更多的光谱细节，同时从光谱曲线上来看，也取得了更高的 consistency，更印证了我们方法的优越性。

MST++ 用于 RGB-to-HSI 的高光谱图像复原

MST++ 是 MST 的后续工作，其全称为 Multi-stage Spectral-wise Transformer。

顾名思义，这很好理解，就是将 MST 的 MM 去掉，然后改成首尾串联的多阶段网络。输入变成 RGB 图像，输出还是 HSI。

定量对比：

MST++ 与其他 SOTA 方法在 NTIRE 2022 的 validation 和 test 数据集上的对比如表3所示。MST++ 使用更少的计算量和参数量，达到了更高的性能指标，同时取得了 NTIRE 2022 Challenge on Spectral Reconstruction from RGB 的冠军。

定性对比：

MST++ 与 SOTA 方法在 NTIRE 2022 的 validation 数据集上的定性对比如图11和图12所示。

目前为止，从 RGB 到 HSI 图像复原的研究缺乏一个好用的 baseline，作者将自己的方法连同 10 个 SOTA 复原算法，预训练模型，都开源在了MST++，希望推动这个方向的发展。

小结

针对从快照压缩估计图（measurement）和从常规图像（RGB）重建出高光谱图像，作者分别提出了领域内第一个基于Transformer的方法，MST 与 MST++，以更少的参数量，更低的计算量取得了更高的性能。

同时，MST++ 还取得了 NTIRE 2022 Challenge on Spectral Reconstruction 的第一名。

作者介绍

作者Luc Van Gool自1998年起开始担任苏黎世联邦理工学院的教授，并负责计算机视觉实验室。

此前，他曾就读于比利时鲁汶大学的电子工程专业，并于1991年获得博士学位，1996年成为鲁汶大学的教授。

他的研究兴趣包括二维和三维物体识别、纹理分析、范围采集、立体视觉、机器人视觉和光流。

Luc Van Gool是多个国际会议程序委员会的成员，包括ICCV、ECCV和CVPR。1998年，他获得了国际计算机视觉会议的David Marr奖。

参考资料：

https://zhuanlan.zhihu.com/p/501101943?utm_source=wechat_session&utm_medium=social&utm_oi=980437177842446336&utm_content=group2_article&utm_campaign=shareopn