arxiv论文整理20240106-0112(目标检测方向)
共 1885字,需浏览 4分钟
·
2024-03-22 20:00
SOAP: Cross-sensor Domain Adaptation for 3D Object Detection Using Stationary Object Aggregation Pseudo-labelling(WACV 2024)
摘要: 我们研究了在基于激光雷达(LiDAR)的3D目标检测领域跨传感器域自适应问题,并提出了一种固定物体聚合伪标注(SOAP)方法,以生成高质量的针对静止物体的伪标签。与目前最先进的领域内实践不同,后者只聚合少量输入扫描,SOAP聚合了整个点云序列输入以减少传感器域的差距。然后,通过我们所说的准静态训练和空间一致性后处理,SOAP模型为静止物体生成精确的伪标签,与少帧检测器相比至少减少了30.3%的域差距。我们的研究结果还表明,与SOAP结合使用时,最先进的域自适应方法在无监督和半监督设置中均可以取得更高的性能。
点评: 通过聚合静态对象的完整序列,生成更高质量的伪标签,以解决3D目标检测的跨传感器域适应问题。
Dual-Perspective Knowledge Enrichment for Semi-Supervised 3D Object Detection
摘要: 半监督式3D目标检测是一种有前景但尚未充分探索的方向,旨在降低数据标注成本,特别是针对杂乱的室内场景。一些先前的研究作品,如SESS和3DIoUMatch,试图通过利用教师模型为未标记样本生成伪标签来解决这一任务。然而,与2D领域相比,3D领域中未标记样本的可用性相对较有限,这是因为采集3D数据需要更多的工作量。此外,SESS中松散的一致性规范和3DIoUMatch中受限的伪标签选择策略导致了监督质量较低或伪标签数量有限的问题。为了解决这些问题,我们提出了一种新颖的双重视角知识丰富(DPKE)方法,用于半监督式3D物体检测。我们的DPKE从数据视角和特征视角两个方面,丰富了有限训练数据,特别是未标记数据的知识。具体而言,从数据视角出发,我们提出了一种基于类概率不同分布的数据增强方法,通过增加额外实例来改进输入数据。我们的DPKE通过设计一种基于几何感知的特征匹配方法,使学生模型和教师模型之间的物体提议在特征层面上相似性得到规范化,从而实现了特征视角的知识丰富。在两个基准数据集上进行的大量实验证明,我们的DPKE在各种标签比例条件下均优于现有的最先进方法。源代码将向公众开放。
点评: 结合了知识蒸馏和半监督学习的技术,通过教师网络对学生网络进行知识蒸馏。代码已开源: https://github.com/tingxueronghua/DPKE。
CLIP-guided Source-free Object Detection in Aerial Images(IGARSS2024)
摘要: 领域自适应对于航空影像至关重要,因为这些图像的视觉表现会受到地理位置、时间和天气条件等因素的显著影响。此外,高分辨率的航空影像往往需要大量存储空间,可能无法被公众轻易获取。为了解决这些挑战,我们提出了一种新颖的无源目标检测(SFOD)方法。具体而言,我们的方法建立在自训练框架之上;然而,在缺乏标记的训练数据的情况下,自训练可能导致学习不准确。为了解决这个问题,我们进一步整合了对比性语言-图像预训练(CLIP),以指导伪标签的生成,称为CLIP引导聚合。通过利用CLIP的零样本分类能力,我们将其用于与原始预测的边界框聚合分数,使我们能够获得伪标签的精细化分数。为了验证我们方法的有效性,我们基于DIOR数据集构建了两个新的不同领域的数据集,命名为DIOR-C和DIOR-Cloudy。实验证明我们的方法性能优于其他比较算法。
点评: 利用CLIP(跨模态语言模型)的能力,将图像和文本之间的关系学习得更加深入,从而实现在没有标注源图像的情况下,通过输入文本描述,直接在图像中进行目标检测。
ps:承接程序代写, 小程序编写 程序应用 深度学习 卷积神经网络 pytorch paddlepaddle 数据结构 机器学习 目标检测 图像处理
有需要的兄弟们可以在我公众号留言。
论文解读的ppt(有备注,可直接讲)可以在知识星球获取:
我正在「目标检测er的小圈子」和朋友们讨论有趣的话题,你⼀起来吧?
https://t.zsxq.com/0cM8tmd4l