用于RGB-D显著目标检测的自监督表示学习-技术圈

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

现有的基于CNN的RGB-D显著目标检测(SOD)网络都需要在ImageNet上进行预先训练，学习层次特征，这有助于提供良好的初始化。然而，大规模数据集的收集和注释是耗时和昂贵的。在本文中，我们利用自监督表示学习(SSL)设计了两个借口任务:跨模态自动编码器和深度轮廓估计。我们的借口任务只需要少量的和未标记的RGB-D数据集来执行预训练，这使网络捕获丰富的语义上下文，并减少两种模式之间的差距，从而为下游任务提供一个有效的初始化。此外，针对RGB-D SOD中固有的跨模态融合问题，我们提出了一种多路径融合(MPF)模块，该模块将单一特征融合分解为多路径融合，以实现对一致和差异信息的充分感知。强积金模块具有通用性，适用于跨模态和跨层次的特征融合。在6个基准的RGB-D SOD数据集上进行了大量的实验，我们的模型在RGB-D数据集上进行了预处理(6;335不带任何注释)可以优于大多数在ImageNet上预先训练的最先进的RGB-D方法(1;280;000，带有图像级注释)。

本文创新点

对于网络架构，我们提出了一个通用模块，称为多路径融合(MPF)，以实现跨模态和跨级融合。具体来说，对于两种具有互补关系的特征，我们计算它们的共同一致(JC)特征和共同差异(JD)特征。JC特征更注重其一致性，并能有效防止非显著信息的干扰。JD的功能描述了它们的差异，并可以补充微妙的信息。

我们的主要贡献总结如下:

我们提出了一种与RGB- d SOD任务密切相关的自监督网络，该网络由跨模态的RGB深度显著性分类、RGB深度深度轮廓深度、RGB基于cnn的RGB- d SOD网络(Others)、SSL网络(Ours)自动编码器和深度轮廓估计译码器组成。这是第一个对RGB-D SOD进行自监督表示学习的方法。
我们设计了一种简单有效的多路径融合结构，适用于跨层次和跨模态的特征融合。
我们使用6;335对没有任何相互标签的rgb深度图像。与预先训练的ImageNet相比(1;280;在6个RGB-D数据集上，我们的方法仍然比大多数竞争对手表现得更好。此外，本文提出的具有ImageNet预训练的网络在RGB SOD任务上也取得了良好的性能。

网络结构

我们的网络架构如下图所示，遵循由一个编码器、一个多路径融合模块和一个解码器组成的双流模型。编码器-解码器体系结构是基于FPN[28]。编码器基于一个共同的骨干网，例如VGG-16[42]，分别对RGB和深度进行特征提取。我们抛弃了VGG-16的所有全连接层，去掉最后的池化层，将VGG-16网络修改为全卷积网络。我们将两模编码块的输出特征传递到多路径融合模块中，实现各层次的跨模态融合。强积金也嵌入在解码器中。一旦我们得到这些跨模态融合的特征，它们就会参与到解码器中，从高阶到低阶的细节逐步融合，从而不断恢复全分辨率显著图。

网络管道的下游任务。它由两个VGG-16编码器、五个跨模态层和四个解码器块组成。多路径融合模块(MPF)实现了跨模态和跨层次的融合。我们采用交叉熵损失作为监督，生成多分辨率的地面真值。

多路径融合模块示意图

第一阶段:跨模态自动编码器。第二阶段:深度轮廓估计。

实验结果

不同RGB-D SOD方法的目视比较

结论

在这项工作中，我们提出了一种新的自监督学习(SSL)方案来完成有效的RGB-D SOD任务的前训练，而不需要人工标注。SSL借口任务包括跨模态自动编码和深度轮廓估计，通过这些任务网络可以捕获丰富的上下文，减少模态之间的差距。此外，我们还设计了一个多路径融合模块，实现了跨通道、跨层次的信息融合。大量的实验表明，我们的模型在RGB- d和RGB SOD数据集上都有很好的表现。作为SSL在RGB-D SOD中的第一种方法，可以作为未来研究的新基线。

论文链接：https://arxiv.org/pdf/2101.12482.pdf

每日坚持论文分享不易，如果喜欢我们的内容，希望可以推荐或者转发给周围的同学。

- END -

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~