arxiv论文整理20240224-0301(目标检测方向)
EMIFF: Enhanced Multi-scale Image Feature Fusion for Vehicle-Infrastructure Cooperative 3D Object Detection(ICRA 2024)
摘要: 在自动驾驶中,合作感知利用来自车辆和基础设施的多视角摄像头,提供了全局视角,超越了单个车辆视点,获得了道路条件的丰富语义背景。目前,在车辆基础设施的合作三维(VIC3D)目标检测中仍然存在两个主要挑战:1)融合多视图图像时存在的固有姿态误差,由于摄像机之间的时间不同步导致;2)由于有限的通信带宽,传输过程中造成的信息丢失。为了解决这些问题,我们提出了一种新的基于摄像头的VIC3D任务的三维检测框架,称为Enhanced Multi-scale Image Feature Fusion (EMIFF)。为了充分利用来自车辆和基础设施的全局视角,我们提出了Multi-scale Cross Attention (MCA)和Camera-aware Channel Masking (CCM)模块,以在尺度、空间和通道水平上增强基础设施和车辆特征,从而修正由摄像机异步引入的姿态误差。我们还引入了一个具有通道和空间压缩块的特征压缩 (FC) 模块,以提高传输效率。实验表明,EMIFF在DAIR-V2X-C数据集上取得了最先进的结果,明显优于之前的早期融合和后期融合方法,并且传输成本相当。
点评: 结合了车辆和基础设施的信息,实现了全局视角下的目标检测,提供了更丰富的道路条件语义,从而提高了检测的准确性和效率。
Semi-supervised Open-World Object Detection(AAAI 2024)
摘要: 传统的开放世界目标检测(OWOD)问题首先区分已知和未知类别,然后在随后的任务中以标签形式逐步学习未知对象。然而,目前的OWOD公式在增量学习阶段严重依赖外部人类谱来进行知识输入。这种对运行时的依赖使得这种公式在实际部署中变得不太现实。为了解决这个问题,我们引入了一个更现实的公式,名为半监督开放世界检测(SS-OWOD),通过在半监督方式下对OWOD的增量学习阶段进行了标注成本的降低。我们证明了最先进的OWOD检测器在所提出的SS-OWOD设置下的性能明显下降。因此,我们引入了一种新颖的SS-OWOD检测器,名为SS-OWFormer,它利用特征对齐方案更好地对齐原始图像和增强图像之间的对象查询表示,以利用大量未标记和少量已标记数据。我们进一步引入了一种未知检测的伪标记方案,利用解码器对象查询的固有能力来捕获特定对象的信息。我们展示了我们的SS-OWOD问题设置和针对遥感目标检测的方法的有效性,并提出了经过精心筛选的数据集划分和基线性能评估。我们在MS COCO、PASCAL、Objects365和DOTA等4个数据集上的实验证明了我们方法的有效性。我们的源代码、模型和数据集划分在此处提供 - https://github.com/sahalshajim/SS-OWFormer
点评: 通过在半监督方式下对OWOD的增量学习阶段进行了标注成本的降低。代码已开源。
DEYO: DETR with YOLO for End-to-End Object Detection
摘要: DETR的训练范式严重依赖于在ImageNet数据集上对其骨干进行预训练。然而,图像分类任务和一对一匹配策略提供的有限监督信号导致了DETR的预训练颈部不足。此外,在训练的早期阶段匹配的不稳定性导致DETR的优化目标存在不一致性。为了解决这些问题,我们设计了一种名为分步训练的创新训练方法。具体来说,在训练的第一阶段,我们使用经典的检测器,采用一对多匹配策略进行预训练,来初始化端到端检测器的骨干和颈部。在训练的第二阶段,我们冻结了端到端检测器的骨干和颈部,需要从头开始训练解码器。通过应用分步训练,我们引入了第一个使用纯卷积结构编码器的实时端到端目标检测模型DETR with YOLO(DEYO)。DEYO无需依赖任何额外的训练数据,在速度和准确性上均超过了所有现有的实时目标检测器。此外,全面的DEYO系列可以借助单个8GB的RTX 4060 GPU在COCO数据集上完成第二阶段训练,显著降低了训练开销。源代码和预训练模型可在https://github.com/ouyanghaodong/DEYO 上找到。
点评: 结合了DETR和YOLO的优点,实现了端到端的目标检测,保持了DETR的高精度和YOLO的高速度。代码已开源。
Boosting Semi-Supervised Object Detection in Remote Sensing Images With Active Teaching(IEEE Geoscience and Remote Sensing Letters)
摘要: 缺乏对象级注释对遥感图像(RSI)中的目标检测提出了重大挑战。为了解决这个问题,人们提出了主动学习(AL)和半监督学习(SSL)技术,以提升注释的质量和数量。主动学习专注于选择最具信息量的样本进行注释,而半监督学习则利用未标记样本中的知识。在这封信中,我们提出了一种新颖的主动学习方法,使用师生网络来增强遥感图像的半监督目标检测(SSOD),称为SSOD-AT。所提出的方法融合了一个RoI比较模块(RoICM),用于生成感兴趣区域(RoI)的高可信度伪标签。同时,RoICM也用于识别前K个不确定性最大的图像。为了减少人工标注中前K个不确定性最大图像中的冗余性,引入了一个基于不同类别的对象级原型的多样性标准,利用标记和伪标记图像。对于两个常用数据集DOTA和DIOR的广泛实验证明,我们提出的方法在RSI目标检测方面的性能超越了最先进的方法。与SOTA方法中最佳性能相比,所提出的方法在整个AL中在大多数情况下实现了1%的改进。
点评: 提出了一种结合半监督学习和主动教学策略的遥感图像目标检测方法。
ps:承接程序代写, 小程序编写 程序应用 深度学习 卷积神经网络 pytorch paddlepaddle 数据结构 机器学习 目标检测 图像处理
有需要的兄弟们可以在我公众号留言。
论文解读的ppt可以在知识星球获取:
我正在「目标检测er的小圈子」和朋友们讨论有趣的话题,你⼀起来吧?
https://t.zsxq.com/0cM8tmd4l