目标检测器通常在完全标注实例的监督学习情况下获得很好的结果。但是,当目标数据集包含大量图像和类别时,标注所有现有目标实例(尤其是在拥挤的风景中)非常困难,甚至不可能。为了解决这个问题因此稀疏标注的任务就被提出,当前目标检测在稀疏标注的性能远远不能令人满意。今天我们介绍一种简单而有效缓解目标检测中稀疏标注问题的训练方法:协同挖掘(Co-mining),利用连体网络的两个分支互相预测伪标签集。协同挖掘可以作为一种通用的训练机制,应用于大多数现代目标检测器。当前该论文已被AAAI 2021收录。
论文:Co-mining: Self-Supervised Learning for Sparsely Annotated Object Detection链接:https://arxiv.org/abs/2012.01950
01
稀疏标注的目标检测
1.1 稀疏标注
稀疏标注的目标检测(SAOD):在每个训练图像中只标注了部分目标实例,存在一部分目标未被标注,如下图所示,红色框是标注的目标,蓝色框是未标注的目标。
1.2 稀疏标注的挑战
SAOD的主要挑战之一是未标记的目标将干扰探测器的训练。在训练过程中,未标记的目标提供了不正确的监督信号,那些未标记的实例及其周围的建议被错误地认为是背景的。结果,在梯度反向传播中更新的权重将被误导。受半监督对象检测实践的启发,SAOD的一个简单解决方案(Niitani等人,2019年)是先用稀疏标注数据训练检测器,然后训练的检测器生成伪标签以重新训练新的检测器,但是,由于第一个学习的模型被未标记的目标干扰了,所以用于第二个检测器学习的生成的伪标记置信度较低。因此提高SAOD准确度的关键因素是如何在训练过程中处理未标记的目标。
02
协同挖掘
作者为了挖掘未标记的实例并将其转换为积极的监督信号,以帮助改善稀疏标注的目标检测,提出了一种具有连体网络(神经网络的“连体”是通过共享权值来实现的,如下图所示)的协同挖掘机制。
2.1 协同挖掘机制
作者提出在训练阶段构建一个连体检测网络。连体检测网络具有两个分支,可以使用的 co-generation模块来生成两个不同的伪标签集。从一个分支生成的伪标签集将与稀疏注释的标签集合并,从而得到更完整的标签集。完整的标签集将用作另一个分支的监督信号。为了增强多视图学习和更好地挖掘未标记实例,将原始图像和相应的增强图像分别作为连体网络的两个分支的输入。
协同挖掘机制的结构如下图所示,给定的训练图像x,Y表示稀疏标注实例的部分,而U表示未标记实例的部分。采用连体网络进行特征提取和检测预测。连体网络的每个分支都包含主干B和预测头H。输入x经过连体网络顶部分支生成预测Po,同时通过图像增强(例如Gaussian blur and color-jitter)的xa经过连体网络底部分支生成预测Pa,这里每个分支的预测包含分类和回归的输出。预测Po和Pa经过co-generation模块来生成两个不同的伪标签集Pag和Pog,这里生成伪标签的co-generation模块分为一下几个步骤:1.过滤置信度较低的边界框 2.通过nms来删除冗余框 3.去除有标注的边界框,然后将伪标签Pog与真实的标签Y聚合,以生成更完整的集合Ca,然后使用Ca来指导底部分支的预测head Ha 和 主干 B 的训练。同样,使用更完整的组合Pag和Y来指导顶部分支中H和B的训练。
03
实验结果
3.1 Copy-Pasted Strategies
下图是在不同迭代训练中有连体网络的两个分支生成伪标签(边界框)的可视化,从图中可以看出在第60k次迭代中,原始分支(图中的顶部分支)生成未标记瓶的伪标签,而增强分支(图中的底部分支)生成未标记的网球拍的伪标签。在开采实例的监督下,连体网络的两个分支都在第90k次迭代中检测到未标记的实例。
3.2 Comparison
下表展示了协同挖掘(Co-mining)与其他稀疏标注方法在COCO2017验证集上的表现,采用了相同的目标检测框架RetinaNet,从表中看出协同挖掘(Co-mining)超过其他的稀疏标注的方法。
04
结论
如何在稀疏标注的数据集上实现准确的目标检测是一个极具挑战性的难题。现有的物体检测网络在稀疏标签的情况下的性能不能令人满意。协同挖掘(Co-mining)通过连体网络的设计实现了挖掘未标记的实例并将其转换为积极的监督信号,以帮助改善稀疏标注的目标检测。
✄------------------------------------------------
看到这里了,说明您也喜欢这篇文章,您可以点击「分享」与朋友们交流,点击「在看」使我们的新文章及时出现在您的订阅列表中,或顺手「点赞」给我们一个支持,让我们做的更好哦。
欢迎微信搜索并关注「目标检测与深度学习」,不被垃圾信息干扰,只分享有价值知识!