arxiv论文整理20230812-0818(目标检测方向)-技术圈

MS3D++: Ensemble of Experts for Multi-Source Unsupervised Domain Adaption in 3D Object Detection

摘要：在陌生领域部署3D探测器被证明会导致检测率的急剧下降，最高可达到70-90%，这是由于来自训练数据集的激光雷达、地理区域或天气条件的变化所致。这种领域差距会导致密集观测对象的漏检、对齐不准确的置信度评分以及增加高置信度的误报，使检测器变得极不可靠。为了解决这个问题，我们引入了MS3D ++，这是一个用于3D目标检测的自我训练框架，用于多源无监督领域适应。 MS3D ++通过生成高质量的伪标签提供了一个简单的域适应方法，使得无论激光雷达的密度如何，都可以适应各种类型的激光雷达。我们的方法有效地融合了来自不同来源域的一组多帧预训练检测器的预测结果，以改善领域泛化能力。我们随后在时间上对预测结果进行了细化，以确保框定位和对象分类的时间一致性。此外，我们还对不同3D检测器组件在跨领域环境中的性能和特点进行了深入研究，为改进跨领域检测器整合提供了有价值的见解。在Waymo、nuScenes和Lyft上的实验证明，使用MS3D++伪标签训练的检测器在两种激光雷达的鸟瞰图（BEV）评估中实现了与使用人工标注标签相当的最新性能，无论激光雷达的密度是低还是高。

点评：通过多源无监督领域适应、专家集成算法和自学习流程，使得MS3D++能够在3D物体检测中取得更好的性能和鲁棒性。代码已开源： https://github.com/darrenjkt/MS3D。

Cyclic-Bootstrap Labeling for Weakly Supervised Object Detection

摘要：在弱监督目标检测领域，最近的进展以多实例检测网络（MIDN）和序数在线优化的组合为特点。然而，由于只有图像级别的注释，MIDN在生成伪标签时不可避免地会对一些意外的区域建议分配高分。这些不准确的高分区域建议会误导后续优化模块的训练，从而影响检测性能。在本研究中，我们探讨了如何改善MIDN中伪标注的质量。具体来说，我们设计了循环引导标注（CBL）这一弱监督目标检测流程，通过从可靠的教师网络中获得等级信息来优化MIDN。具体而言，我们通过引入加权指数移动平均策略来获得这个教师网络，以利用各种优化模块。我们还提出了一种新颖的类别特定的等级蒸馏算法，利用加权集成教师网络的输出来对MIDN进行等级蒸馏。结果，MIDN被引导为对其邻近的准确建议分配更高的分数，从而使后续的伪标注受益。在普遍的PASCAL VOC 2007＆2012和COCO数据集上进行了大量实验证明了我们CBL框架的优越性能。代码可在 GitHub - Yinyf0804/WSOD-CBL 上获得。

点评：提出了一种新的循环引导标注方法，用于弱监督目标检测。代码已开源。

ICAFusion: Iterative Cross-Attention Guided Feature Fusion for Multispectral Object Detection

摘要：多光谱图像的有效特征融合在多光谱目标检测中起着至关重要的作用。先前的研究已经证明了使用卷积神经网络进行特征融合的有效性，但由于局部范围特征交互中固有的不足导致对图像错位非常敏感，从而使性能下降。为了解决这个问题，提出了一种新颖的双交叉注意力变换器特征融合框架，用于同时模拟全局特征交互和捕捉跨通道的互补信息。该框架通过查询引导的交叉注意力机制增强了目标特征的可辨识性，从而提高了性能。然而，为了增强特征，堆叠多个变换器块会产生大量的参数和高空间复杂性。为了解决这个问题，受到人类复习知识的过程的启示，提出了一种迭代交互机制，用于在块级多模式变换器之间共享参数，从而降低模型复杂性和计算成本。所提出的方法是通用的，能够有效地集成到不同的检测框架中，并与不同的主干网络配合使用。在KAIST、FLIR和VEDAI数据集上的实验结果表明，所提出的方法实现了优越的性能和更快的推理速度，适用于各种实际场景。代码将在https://github.com/chanchanchan97/ICAFusion 上提供。

点评：利用了双重交叉注意力变换框架，通过建模全局特征交互和同时捕捉不同模态之间的补充信息来增强物体特征的可区分性。代码将开源。

Identity-Consistent Aggregation for Video Object Detection（ICCV2023）

摘要：在视频目标检测（VID）中，常见的做法是利用视频中丰富的时空上下文来增强每个帧中的目标表示。现有的方法将不同目标的时空上下文一视同仁，忽视了它们的不同身份。直观地说，聚合不同帧中同一目标的局部视图可能有助于更好地理解目标。因此，在本文中，我们的目标是使模型能够专注于每个对象的身份一致的时空上下文，以获得更全面的目标表示，并处理快速的目标外观变化，如遮挡、动态模糊等。然而，要在现有的VID模型上实现这个目标面临着低效率问题，因为它们存在冗余的区域建议和非并行的逐帧预测方式。为了解决这个问题，我们提出了ClipVID，一种具备特定的身份一致聚合（ICA）层的VID模型，专门用于挖掘细粒度和身份一致的时空上下文。它通过集合预测策略有效地减少了冗余，使得ICA层非常高效，并进一步允许我们设计一种架构，可以对整个视频剪辑进行并行的剪辑级预测。广泛的实验结果证明了我们方法的优越性：在ImageNet VID数据集上表现出最先进的性能（84.7%的mAP），同时运行速度比之前的最优方法快7倍（39.3帧/秒）。

点评：通过引入身份一致聚合机制和关联的时间一致性，并结合点云的信息，实现了更准确、鲁棒的视频目标检测。

GPA-3D: Geometry-aware Prototype Alignment for Unsupervised Domain Adaptive 3D Object Detection from Point Clouds（ICCV 2023）

摘要：近年来，基于LiDAR的三维检测取得了巨大的进展。然而，当在未知环境中部署时，三维检测器的性能受到严重的域间差异问题的限制。现有的域自适应三维检测方法没有充分考虑特征空间中的分布差异问题，从而阻碍了检测器在不同领域间的泛化能力。在这项工作中，我们提出了一种新颖的无监督域自适应三维检测框架，称为几何感知原型对齐（GPA-3D），它明确利用点云对象的内在几何关系来减少特征差异，从而促进跨域转移。具体而言，GPA-3D为具有不同几何结构的点云对象分配一系列量身定制且可学习的原型。每个原型都对应于源域和目标域上导出的鸟瞰图特征，并将它们进行对齐，从而减少分布差异并实现更好的自适应。在包括Waymo、nuScenes和KITTI在内的各种基准测试中，我们的GPA-3D在不同的自适应场景中表现出优越性能，超过了现有最先进方法。MindSpore版本的代码将公开在https://github.com/Liz66666/GPA3D。

点评：引入了随机物体尺寸变化策略，以降低源域数据的负偏差，并用源域数据预训练3D目标检测器。代码将开源。

ps：承接程序代写，小程序编写程序应用深度学习卷积神经网络 pytorch paddlepaddle 数据结构机器学习目标检测图像处理

有需要的兄弟们可以在我公众号留言。

ppt（有备注，可直接讲）可以在知识星球获取：

我正在「目标检测er的小圈子」和朋友们讨论有趣的话题，你⼀起来吧？

https://t.zsxq.com/0cM8tmd4l