综述 | 非完全监督下基于深度学习的图像分割方法（上海交大&华为）-技术圈

来源：PaperWeekly

上海交通大学人工智能研究院杨小康、沈为团队联合华为田奇团队共同发布了非完全监督（即标签有限）下的图像分割方法最新综述“A Survey on Label-efficient Deep Segmentation: Bridging the Gap between Weak Supervision and Dense Prediction”。

该工作由人工智能研究院沈为副教授主持，全文包含170余篇文献，全面总结了不同类型的监督标签在不同分割任务上的进展情况：包括无监督、弱监督、半监督、部分监督、域迁移等多种设置下的语义、实例、全景分割问题，并以统一视角--“如何缩小弱监督信号与密集预测之间的差距”进行分析，总结出用于解决这个问题的四种通用的启发式先验：① cross-label constraint (跨标签约束)；② cross-pixel similarity （跨像素相似性）；③ cross-view consistency （跨视图一致性）；④ cross-image relation （跨图像关系）。

论文标题：

A Survey on Label-efficient Deep Segmentation: Bridging the Gap between Weak Supervision and Dense Prediction

论文作者：

Wei Shen, Zelin Peng, Xuehui Wang, Huayu Wang, Jiazhong Cen, Dongsheng Jiang, Lingxi Xie, Xiaokang Yang, Qi Tian

论文链接：

https://arxiv.org/abs/2207.01223

团队介绍：

https://shenwei1231.github.io/

不同模态的数据会被分别经过“连续向量路径”和“离散词路径”，分别为连续向量和离散词向量作为其的特征；最终的特征为二者的向量和。

背景与问题

图像分割是计算机视觉领域最古老最广泛的研究任务之一。它的目标是对给定的图像来生成密集的预测，根据预测的类型决定具体的分割方向，例如：给每个像素分配一个预定义的类别标签为语义分割；为每个像素预测一个对象实例标签为实例分割；或前两者的预测结果的组合为全景分割。无论哪种具体分割方向，其都能使语义相似的像素组成有意义的概念，如动态对象（人、猫、球等）和静态物体（道路、天空、水等）。

在过去的近十年里，深度学习的出现极大地带动了图像分割领域的研究进展，特别是随着全卷积网络（FCN）的发展，诸如DeepLab系列，Mask RCNN系列等方法凭借卷积网络强大的密集特征表征能力以及独特的设计在图像分割领域大放异彩，取得了非常好的分割效果。然而这些方法也存在着一个共同的缺点，即往往分割效果与具有可用的密集标注的图像的数量是成正比的，对像素级的标签的需求量非常大。但是人为地给每一张图像做像素级的标注却非常地耗费时间与精力，这不仅限制了深度学习的进一步发展，而且限制了图像分割在真实工业场景中的应用。

近年来，设计基于非完全监督信号来减少对密集标签依赖的分割方法越来越受到关注，非完全监督下的图像分割方法的数量呈爆发式增长，由于缺少对这些方法进行系统地归纳总结，这给研究者学习跟进最新研究进展带来不小的挑战。然而，目前仅有个别几篇相关的调研论文，且它们仅仅关注于一个特定的分割任务，并仅包含个别类型的弱标签，无法做到全面的总结。

本文工作

本文研究人员旨在提供一个面向于非完全监督下图像分割领域的全面的综述，分析语义分割、实例分割、全景分割三类使用弱监督信号（标签）来解决分割问题的方法之间的统一性与关联性。为了达到该目的，研究人员需要想好两个问题：1）如何对这些方法建立合适分类与关联？2）如何从统一的角度总结这些方法所使用的策略？研究人员注意到，弱标签的类型是设计非完全监督图像分割方法的关键，决定了可用信息的多少，因此试图从弱标签信号差异的角度来回答上述两个问题。

针对第一个问题，本综述首先总结出层次化的非完全监督信号的分类，具体类型包括如下所示：

1. 无监督信号：即训练集中的图像没有任何标注信号（图 2a）。

2. 粗粒度监督信号：即训练集中的图像有标注信号，但这些信号不是像素级的，无法为每一个像素提供类别信息或者实例信息。(图2b）在该类型下主要包括：