引导式超高分辨率-技术圈

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

低分辨率深度图+高分辨率RGB图像=高分辨率深度图

01.什么是引导式超高分辨率

引导式超分辨率是用于多个计算机视觉任务的统一框架。它输入信息是含有某个目标物体的低分辨率源图像（例如，使用飞行时间相机获取的透视深度）和一个来自不同区域的高分辨率引导图像（例如，来自常规相机的RGB图像），目标是输出源图像的高分辨率版本（在我们的示例中为高分辨率深度图）。

02.为什么要使用引导式超高分辨率

在计算机视觉领域中，引导式超分辨率一大重要应用是利用RGB图像引导的深度图像。举个例子，一般的机器人都配备有常规相机以及飞行时间相机（或激光扫描仪）。后者一般只能得到分辨率较低的深度图，很自然的一个想法，是否可以利用RGB图像中的细节来提高其分辨率。除此之外，我们还可以利用引导式超分辨率在环境地图获得树高或生物量之类的参数。

处理这类问题的方法是将其表述为超分辨率任务，将源图像上采样到目标分辨率，同时从引导图中传入一些丢失的细节。

引导式超分辨率示意图

但我们将换一种解释方式，将引导式超分辨率看做引导图像到源图像域的像素到像素映射。这种逐个像素的映射被参数化为多层感知器，通过最小化源图像和下采样目标图像之间的差异来更新权重。

当我们选择进行像素到像素映射之后，自然会希望引导图像中包含所需的重要内容，因此通过使用平滑的逐像素变换，可以将这些细节保留在输出图像中。

03.方法运用

逐像素映射意味着从要存在一一映射，而且一种颜色只会对应一个深度值，这当然不是我们想要的。因此我们需要将输入图像添加到映射函数中，其中x、y为图像中的像素坐标。通过这个操作，我们让映射函数与位置相关，引导图像中不同位置的相同颜色会映射到不同的输出值上。

这里所使用的方法是无监督学习的，仅使用特定的源图像和引导图像来拟合映射。对于每对图像，我们解决一个优化问题，在该问题中寻找最小化以下损耗的参数：

这种损失意味着我们需要寻找一个参数，使输出的降采结果本与低分辨率源图像尽可能相同。但是这中方法病态问题极其严重，事实上很多图像的降采样结果都与源图像非常相似。为了解决这个问题，我们在映射函数的参数中添加了一个L2稳压器。通过这种操作，可以使结果清晰且平滑。

g是引导图像的像素值，x是像素的空间坐标，t是输出

通过为像素值（绿色）和空间坐标（蓝色）设置网络的独立分支，我们可以分别对这些部分进行正则化，以根据需要使函数在色域或空间域更平滑。

01.实验结果

我们进行两项实验：深度图的超分辨率和树高图的超分辨率。在较高的上采样因子（8至32）下，这种方式明显优于其他超分辨率方法。这是一些实验结果的展示。

要了解有该方法的详细内容，可以阅读以下文章：

R. de Lutio, S. D’Aronco, J. D. Wegner, K. Schindler: “Guided Super-Resolution as Pixel-to-Pixel Transformation”, ICCV, 2019.

代码链接：

https://github.com/riccardodelutio/PixTransform

参考文献：

K. He, J. Sun, X. Tang. “Guided image filtering”, TPAMI, 2013.

J. T. Barron, B. Poole. “The fast bilateral solver”, ECCV, 2016.

T.-W. Hui, C. C. Loy, X. Tang. “Depth map super-resolution by deep multi-scale guidance”, ECCV, 2016.

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~