抠图只精细到头发丝还不够，Adobe新方法能处理6000×6000的高分辨率图像-技术圈

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

本文转载自机器之心。

选自arXiv

作者：Haichao Yu等

机器之心编译

编辑：魔王、小舟

很多深度学习方法实现了不错的抠图效果，但它们无法很好地处理高分辨率图像。而现实世界中需要使用抠图技术的图像通常是分辨率为 5000 × 5000 甚至更高的高分辨率图像。如何突破硬件限制，将抠图方法应用于高分辨率图像？来自 UIUC、Adobe 研究院和俄勒冈大学的研究者提出了一种新方法。

抠图是图像和视频编辑与合成的关键技术。通常，深度学习方法会以整个输入图像和相关的 trimap 作为输入，使用卷积神经网络来推断前景蒙版（alpha matte）。这种方法在图像抠图领域实现了 SOTA 结果。但是，由于硬件限制，这些方法在实际的抠图应用中可能会失败，因为现实世界中需要抠图的输入图像大多具备很高的分辨率。

近日，来自伊利诺伊大学香槟分校（UIUC）、Adobe 研究院和俄勒冈大学的研究者提出了一种名为 HDMatt 的新方法，这是首个处理高分辨率输入图像的深度学习抠图方法。

早在 2017 年，Adobe 等机构就发表论文《Deep Image Matting》，采用大规模数据集与深度神经网络学习图像的自然结构，进一步分离图像的前景与背景。而那篇论文的一作 Ning Xu 正是这篇论文的第二作者。只不过，研究者这次将矛头对准了高分辨率图像。

论文地址：https://arxiv.org/pdf/2009.06613.pdf

具体来说，HDMatt 方法使用新型模块设计，以基于 patch 的剪裁 - 拼接方式（crop-and-stitch）为高分辨率输入图像进行抠图，进而解决不同 patch 之间的语境依赖性和一致性问题。基于 patch 的原版推断方法单独计算每个 patch，而该研究提出了新的模块——CrossPatch Contextual module (CPC)，该模块由给定的 trimap 指导，对跨 patch 语境依赖性进行建模。

大量实验表明了该方法的有效性及其对于高分辨率输入图像的必要性。HDMatt 方法在 Adobe Image Matting 和 AlphaMatting 基准上均实现了新的 SOTA 性能，并且在更真实的高分辨率图像上获得了优秀的效果。

下图展示了，在处理高分辨率图像时，HDMatt 方法与之前最优方法 ContextNet 的对比结果：

ContextNet 分别应用了下采样 (DS) 和剪裁 (C) 策略。从图中可以看出，DS 导致细节模糊，剪裁则导致跨 patch 不一致问题。

而该研究提出的 HDMatt 方法解决了这两个缺陷，抠图效果与真值（上图 c）最接近，这说明该方法能够拟合精细细节。

该研究的主要贡献有：

这是首个基于深度学习的高分辨率图像抠图方法，在硬件资源限制下使现实世界中的高质量 HR 抠图成为现实。
提出一种新型模块 CPC，用来捕获 patch 之间的长程语境依赖性。在 CPC 内部，新提出的 Trimap-Guided Non-Local（TGNL）操作旨在高效传播来自 reference patch 不同区域的信息。
在定量和定性实验方面，HDMatt 方法在 Adobe Image Matting (AIM)、AlphaMatting 基准和真实高分辨率图像数据集上均实现了新的 SOTA 性能。

HDMatt 方法

为了解决高分辨率图像的抠图问题，该研究提出 HDMatt 方法，该方法首先将输入图像和 trimap 剪裁为 patch，然后估计每个 patch 的 alpha 值。仅使用一个 patch 的信息会导致信息损失以及不同 patch 之间的预测不一致问题。因此，该研究提出新型 Cross-Patch Context Module (CPC) 模块，高效利用每个 query patch 的跨 patch 信息。最后，将每个 patch 的估计 alpha 值连接，输出整个图像最终的前景蒙版。

下图 2 展示了 HDMatt 方法的整体框架：