视觉弱监督学习研究进展-技术圈

来源：专知
本文约1680字，建议阅读6分钟
如何结合深度学习和视觉数据任务特点发展视觉弱监督学习模型方法,成为近年来计算机视觉领域的一个研究热点。

视觉理解，如物体检测、语义和实例分割以及动作识别等，在人机交互和自动驾驶等领域中有着广泛的应用并发挥着至关重要的作用。近年来，基于全监督学习的深度视觉理解网络取得了显著的性能提升。然而，物体检测、语义和实例分割以及视频动作识别等任务的数据标注往往需要耗费大量的人力和时间成本，已成为限制其广泛应用的一个关键因素。弱监督学习作为一种降低数据标注成本的有效方式，有望对缓解这一问题提供可行的解决方案，因而获得了较多的关注。围绕视觉弱监督学习，本文将以物体检测、语义和实例分割以及动作识别为例综述国内外研究进展，并对其发展方向和应用前景加以讨论分析。在简单回顾通用弱监督学习模型，如多示例学习(multiple instance learning,MIL)和期望—最大化(expectation-maximization,EM)算法的基础上，针对物体检测和定位，从多示例学习、类注意力图机制等方面分别进行总结，并重点回顾了自训练和监督形式转换等方法；针对语义分割任务，根据不同粒度的弱监督形式，如边界框标注、图像级类别标注、线标注或点标注等，对语义分割研究进展进行总结分析，并主要回顾了基于图像级别类别标注和边界框标注的弱监督实例分割方法；针对视频动作识别，从电影脚本、动作序列、视频级类别标签和单帧标签等弱监督形式，对弱监督视频动作识别的模型与算法进行回顾，并讨论了各种弱监督形式在实际应用中的可行性。在此基础上，进一步讨论视觉弱监督学习面临的挑战和发展趋势，旨在为相关研究提供参考。

http://www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20220604&flag=1

近年来,视觉理解技术的快速发展仍主要建立在监督学习的基础上。然而,物体检测、语义和实例分割以及视频动作识别等视觉理解任务往往需要大量的全标注数据集 D s = {(x, y s )},其中 x 为输入样本,y s是全标注。例如,对于分割任务,图像 x 中包含各种物体,全标注 y s为像素级别的类别标签。得益于深度学习技术的快速发展,全监督学习在各种视觉理解任务中已经取得了巨大成功,如目标检测任务中的 YOLO ( you only look once) (Redmon 等,2016 )、 Fast R-CNN ( fast region-based convolutional neural network) (Girshick,2015;He 等,2017; Ren 等,2017 )、 FCOS ( fully convolutional one-stage object detector) (Tian 等,2019)和 DETR ( detection transformer) ( Carion 等,2020 ) 等, 语义分割中的 DeepLab ( Chen 等,2018 )、 PSPNet ( pyramid scene parsing network) (Zhao 等,2017)等。然而,大规模数据集的全标注往往要耗费大量的人力成本和时间成本。仍以图像分割为例,为获取全监督训练数据集如 CityScapes (Cordts 等,2016),需人工对图像进行像素级别标注。该数据集中包含 5 000 幅图像, 使用 LabelMe 软件(Russell 等,2008)进行精细的像素级标注,每幅图像平均需要花费超过 1. 5 h 来保证标注的质量,人工标注的成本大约是每小时 6 10 美元。显然,过高的标注成本制约了语义分割在其他类别上的更快发展。无监督生成学习和自监督学习虽然在很大程度上能够缓解标注代价,但仍需要一定数量的全标注数据用于模型微调。数据标注作为一种典型劳动密集型工作,已成为关乎当前整个 AI(artificial intelligence)产业的基础。如何有效地降低标注成本或者避免数据标注,同时保证视觉理解模型的性能,不仅是深度学习未来发展应用的关键问题,同时也是机器学习乃至于人工智能领域的重要开放问题,在经济和社会层面上均具有重要的研究意义。

弱监督学习作为一种降低数据标注成本的有效方式,有望对缓解这一问题提供可行的解决方案,因而获得了较多的关注。在视觉弱监督学习方法中, 对于样本 x 仅需提供弱标注 y w构成弱监督数据集 D w = {(x, y w )}。如对于图像分割任务,图像级别和标注框的弱监督标注,相较于像素级别的标注的代价显著降低。仍以 CityScapes 数据库为例,一个边界框的标注需要 7 s,一个图像的类别标注只需要 1 s,弱标注相较于像素级的全标注显著降低了成本。视觉弱监督学习旨在利用弱标注数据集 D w , 通过发展有效的学习模型以缩小与全监督模型的性能差距。视觉弱监督方法能够显著降低标注成本,且期望接近全监督视觉模型的性能。因而如何结合深度学习和视觉数据任务特点发展视觉弱监督学习模型方法,成为近年来计算机视觉领域的一个研究热点。