CVPR2021 6篇惊艳审稿人的抠图算法&代码汇总！附创新点-技术圈

点击下方“AI算法与图像处理”，一起进步！

重磅干货，第一时间送达

CVPR 2021 全部论文链接公布！最新1660篇论文合集！附下载链接

本文包含了 6 篇抠图相关的论文代码内容，主要包含两个大方向：图像抠图和视频抠图。

抠图的用途非常的广，例如图片/视频编辑，影视制作等场景。抠图技术能减少人力成本，提高效率，创造更高的收益。

传统的抠图技术利用图像的色彩等底层特征来分离前景，但其效果受制于底层特征的有限表达能力。随着深度学习的发展，深度神经网络被应用于抠图技术中，从深度网络提取的高层语义特征能够从复杂场景中准确区别前后背景，从而极大地提升了抠图效果，基于深度学习的图像抠图技术也因此成为主流的图像抠图技术。

Deep Video Matting via Spatio-Temporal Alignment and Aggregation

论文/paper：https://arxiv.org/abs/2104.11208

代码/code：https://github.com/nowsyn/DVM

创新点：本文提出了一种基于深度学习的视频抠图框架，该框架采用了一种新颖有效的时空特征聚合模块（ST-FAM）。

解读：

港科大&快手提出首个视频抠图框架！复杂背景下依然优异！CVPR2021

Improved Image Matting via Real-time User Clicks and Uncertainty Estimation

论文/paper：https://arxiv.org/abs/2012.08323

代码/code：None

创新点：为此，本文提出了一种改进的深度图像抠图框架，该框架无需trimap，只需多个用户点击交互即可消除模糊。

摘要：

图像抠图是计算机视觉和图形学中的一个基本而富有挑战性的问题。大多数现有的消光方法都利用用户提供的trimap作为辅助输入来产生良好的alpha消光效果。然而，获得高质量的trimap本身是一项艰巨的任务，从而限制了这些方法的应用。近年来，出现了一些无trimap的方法，但其消光质量仍远远落后于基于trimap的方法。主要原因是，在某些情况下，如果没有trimap制导，目标网络对于哪个是前景目标是模糊的。实际上，选择前景是一个主观的过程，取决于用户的意图。为此，本文提出了一种改进的深度图像抠图框架，该框架无需trimap，只需多个用户点击交互即可消除模糊。此外，我们还引入了一个新的不确定度估计模块，可以预测哪些零件需要抛光，以及一个后续的局部细化模块。根据计算预算，用户可以在不确定性指导下选择需要改进的局部零件数量。定量和定性结果表明，我们的方法比现有的trimap-free方法具有更好的性能，并且与最先进的基于trimap的方法相比，只需最少的用户工作。

Mask Guided Matting via Progressive Refinement Network

论文/paper：https://arxiv.org/abs/2012.06722

代码/code：https://github.com/yucornetto/MGMatting

创新点：我们提出了掩模引导（MG）消光，一个健壮的消光框架，以一般的粗掩模为指导。

摘要：

我们提出了掩模引导（MG）消光，一个健壮的消光框架，以一般的粗掩模为指导。MG Matting利用网络（PRN）设计，鼓励Matting模型提供自我指导，通过解码过程逐步细化不确定区域。训练中还引入了一系列的制导掩模摄动操作，进一步增强了其对外部制导的鲁棒性。结果表明，PRN可以推广到trimap和低质量alpha-matte等不可见的制导掩模，适用于各种应用场合。此外，我们重新讨论了前景颜色预测问题，并提出了一个令人惊讶的简单改进，以解决数据集的问题。

Omnimatte: Associating Objects and Their Effects in Video

论文/paper：https://arxiv.org/abs/2105.06993

代码/code：None

创新点：我们采取了一个步骤来解决这个新的问题，自动关联对象与他们的视频效果。

摘要：

计算机视觉在分割图像和视频中的物体方面越来越有效；然而，与物体相关的场景效果——阴影、反射、产生的烟雾等——通常被忽略。识别这些场景效果并将其与产生它们的对象相关联对于提高我们对视觉场景的基本理解非常重要，还可以帮助各种应用，例如移除、复制或增强视频中的对象。在这项工作中，我们采取了一个步骤来解决这个新的问题，自动关联对象与他们的视频效果。给定一个普通视频和一个或多个感兴趣的对象随时间变化的粗略分割掩码，我们估计每个对象的全向蒙版——一个包含对象及其所有相关时变场景元素的alpha蒙版和彩色图像。我们的模型只对输入视频进行自监督训练，没有任何人工标注，并且是通用的——它自动生成任意对象和各种效果的全向图。我们在真实世界的视频中展示了结果，视频中包含了不同类型的对象（汽车、动物、人）之间的交互和复杂的效果，从半透明元素（如烟雾和反射）到完全不透明的效果（如附着在对象上的对象）

Real-Time High Resolution Background Matting

视频/demo：youtube

论文/paper：https://arxiv.org/abs/2012.07810 | 主页/Homepage

代码/code：https://github.com/PeterL1n/BackgroundMattingV2

创新点：我们介绍了一种实时、高分辨率的背景替换技术，它在4K分辨率下以30fps的速度工作，在现代GPU上以60fps的速度工作。

解读：

华盛顿大学实时视频抠图再升级，毛发细节到位 | 应用前景广阔

Semantic Image Matting

论文/paper：https://arxiv.org/abs/2104.08201

代码/code：https://github.com/nowsyn/SIM

创新点：具体地，我们考虑和学习20类抠图模式，并提出将传统的Trimp扩展到语义TrimAP。

摘要：

自然图像铺垫将前景与背景分开，这可能是由高度透明的对象、复杂前景（例如，网或树）和/或包含非常精细细节的对象（例如，头发）引起的。尽管传统的matting公式可以应用于上述所有情况，但是由于各种前景语义，没有任何工作试图解释matting的根本原因。

我们展示了如何通过在我们的框架中加入铺垫区域的语义分类来获得更好的alpha铺垫。具体地，我们考虑和学习20类抠图模式，并提出将传统的Trimp扩展到语义TrimAP。提出的语义trimap可以通过trimap区域内的斑块结构分析自动得到。同时，我们学习了一个多类鉴别器在语义层对alpha预测进行正则化，并学习了内容敏感权重来平衡不同的正则化损失。在多个基准上的实验表明，该方法的性能优于其他方法，取得了最具竞争力的最新性能。最后，我们提供了一个大规模的语义图像铺垫数据集，并仔细考虑了不同语义类之间的数据平衡。

努力分享优质的计算机视觉相关内容，欢迎关注：

个人微信（如果没有备注不拉群！）

请注明：地区+学校/企业+研究方向+昵称

下载1：何恺明顶会分享

在「AI算法与图像处理」公众号后台回复：何恺明，即可下载。总共有6份PDF，涉及 ResNet、Mask RCNN等经典工作的总结分析

下载2：终身受益的编程指南：Google编程风格指南

在「AI算法与图像处理」公众号后台回复：c++，即可下载。历经十年考验，最权威的编程规范！

下载3 CVPR2021

在「AI算法与图像处理」公众号后台回复：CVPR，即可下载1467篇CVPR 2020论文 和 CVPR 2021 最新论文

点亮，告诉大家你也在看