arxiv论文整理20240203-0209(目标检测方向)-技术圈

Semantic-Aware and Goal-Oriented Communications for Object Detection in Wireless End-to-End Image Transmission（ICNC 2024）

摘要：语义通信聚焦于通过仅传输接收方所需的最相关数据来优化信息交换，以传达既定消息并实现期望的通信目标。例如，如果我们将图像视作信息，并且通信的目标是在接收端进行目标检测，那么信息的语义将是每个图像中的物体。因此，仅通过传输图像的语义，我们就能够实现通信目标。本文提出了一个设计框架，用于实现图像的语义感知和目标导向的通信。为了实现这一目标，我们首先将基准问题定义为一组数学问题，这些问题可以进行优化，以提高通信系统的效率和有效性。我们考虑了两种情景，即数据速率或接收端的误差为限制条件。我们提出的系统模型和解决方案受到自编码器的概念的启发，其中编码器和解码器分别在发射端和接收端实现，以提取特定物体检测目标的语义信息。我们的数值结果验证了所提出的设计框架能够在减少数据传输量的同时，在目标导向的通信系统中实现低误差或近乎最优的性能。

点评：提出了一种基于语义感知和目标导向的无线端到端图像传输系统，用于目标检测，创新性地结合了语义理解和目标导向的设计，提高了图像传输和目标检测的效率和准确性。

Dynamic Occupancy Grids for Object Detection: A Radar-Centric Approach（ICRA 2024）

摘要：动态占据格网地图绘制是一种用于生成包含静态和动态信息的环境局部地图的技术。通常，这些地图主要是利用激光雷达测量生成的。然而，随着雷达传感技术的改进，其精度和分辨率的提高使其成为了比激光雷达更为可行的主要传感器用于绘制地图。在本文中，我们提出了一种以雷达为中心的动态占据格网地图绘制算法，通过对雷达测量的具体特性进行状态计算、逆传感器模型以及视场计算的调整和适应。我们利用真实数据对我们的方法进行了广泛评估，以展示其有效性，并建立了使用公开可得的Radarscenes数据集进行雷达式动态占据格网地图绘制的首个基准。

点评：采用以雷达为中心的方法，通过动态占据网格来实现目标检测，这种方法可以实时更新环境状态，从而提高目标检测的准确性和效率。

ActiveAnno3D - An Active Learning Framework for Multi-Modal 3D Object Detection

摘要：大规模数据集的策划成本仍然较高，需要大量时间和资源。数据往往是手工标记的，创建高质量数据集的挑战依然存在。在这项工作中，我们利用主动学习进行多模态三维物体检测，填补了研究领域的空白。我们提出了ActiveAnno3D，这是一个主动学习框架，用于选择标记数据样本，这些样本对于训练具有最大的信息量。我们探索了各种连续训练方法，并集成了在计算要求和检测性能方面最高效的方法。此外，我们在nuScenes和TUM交通路口数据集上进行了大量实验和消融研究，使用BEVFusion和PV-RCNN。我们展示了，在仅使用TUM交通路口数据集的一半训练数据时（77.25 mAP对比83.50 mAP），PV-RCNN和基于熵的查询策略几乎可以达到相同的性能。当使用nuScenes完整数据集时，BEVFusion的mAP为64.31，而当使用一半的训练数据集时，mAP为75.0。我们将我们的主动学习框架整合到proAnno标注工具中，以实现AI辅助数据选择和标注，并最大程度地降低标注成本。最后，我们在网站https://active3d-framework.github.io/active3d-framework上提供了代码、权重和可视化结果。

点评：通过主动标注和学习的方式，提高了目标检测的精度和效率。代码已开源。

HASSOD: Hierarchical Adaptive Self-Supervised Object Detection（NeurIPS 2023）

摘要：人类视觉感知系统展现了在没有明确监督的情况下学习和理解对象的整体构成的非凡能力。受到这两种能力的启发，我们提出了一种新颖的方法，名为分层自适应自监督目标检测（HASSOD），该方法通过自主学习在没有人类监督的情况下学习检测对象和理解它们的构成。HASSOD采用分层自适应聚类策略，根据自主学习的视觉表示将区域分组为对象掩模，并自适应确定每个图像中的对象数量。此外，HASSOD通过分析掩模之间的覆盖关系并构建树结构，确定对象的层次级别，以了解其构成。这一额外的自监督学习任务提高了检测性能，改善了可解释性。最后，我们放弃了之前方法中使用的低效多轮自我训练过程，转而采用了半监督学习中的MeanTeacher框架，从而实现了更平稳、更高效的训练过程。通过在常见图像数据集上进行大量实验证明了HASSOD相对于现有方法的卓越性能，从而推动了自监督目标检测领域的发展。值得注意的是，我们在LVIS上将Mask AR从20.2提升至22.5，在SA-1B上将其从17.0提升至26.0。项目页面： HASSOD: Hierarchical Adaptive Self-Supervised Object Detection 。

点评：通过构建层次化的特征表示和自适应的学习策略，实现了高效且准确的3D目标检测。代码已开源。

G-NAS: Generalizable Neural Architecture Search for Single Domain Generalization Object Detection（AAAI24）

摘要：本文侧重于一个现实且具有挑战性的任务，即单领域通用目标检测（S-DGOD），其中只能使用一个源域的数据来训练目标检测器，但需要推广到多个不同的目标领域。在S-DGOD中，由于任务的复杂性，需要具备高容量拟合和泛化能力。可微神经架构搜索（NAS）以其高容量适应复杂数据的能力而闻名，我们提出利用可微NAS来解决S-DGOD。然而，由于特征不平衡现象，其中由梯度下降优化的参数倾向于学习易于学习的特征，这些特征通常与地面实况标签无因果相关，例如目标检测数据中的背景特征。因此，这导致严重的性能下降，特别是在推广到源域和目标域之间存在巨大领域差距的未看到的目标领域时。为了解决这个问题，我们提出了通用性损失（G-loss），这是一种Out-of-Distribution感知目标，通过使用梯度下降在易于学习的特征子集以及其余用于泛化的预测特征上进行参数优化，可以防止NAS过度拟合。我们基于该思想提出了G-NAS整体框架。对S-DGOD城市场景数据集的实验结果表明，所提出的G-NAS相对于基线方法取得了SOTA性能。代码可在https://github.com/wufan-cse/G-NAS找到。

点评：通过搜索和优化网络结构，实现了跨领域的目标检测，提高了模型的泛化能力和效率。代码已开源。

Toward Accurate Camera-based 3D Object Detection via Cascade Depth Estimation and Calibration（ICRA2024）

摘要：近期基于摄像头的三维物体检测受限于从图像到三维特征空间的精确转换，以及在三维空间内准确定位物体的准确性。本文旨在解决基于摄像头的三维物体检测的这一基本问题：如何有效学习深度信息以实现准确的特征提取和物体定位。与以往的直接使用监督估计模型来预测深度分布的方法不同，我们提出了一个由两种深度感知学习范式组成的级联框架。首先，深度估计（DE）方案利用相对深度信息实现了从二维到三维空间的有效特征提取。此外，深度校准（DC）方案引入深度重建，进一步调整了沿深度轴的三维物体定位扰动。在实践中，DE通过同时使用绝对深度和相对深度优化损失来显式实现，以提高深度预测的精度，而DC的能力则隐式嵌入到检测Transformer中，通过训练阶段的深度去噪机制来实现。整个模型训练通过端到端方式完成。我们提出了一个基准检测器，并在NuScenes基准测试中实现了+2.2%/+2.7%的NDS/mAP改进，并获得了55.9%/45.7%的NDS/mAP相当的性能。此外，我们进行了大量实验证明了其在各种检测器上的普适性，取得了约+2%的NDS改进。

点评：通过级联深度估计和校准，实现了精确的3D目标检测。

ps：承接程序代写，小程序编写程序应用深度学习卷积神经网络 pytorch paddlepaddle 数据结构机器学习目标检测图像处理

有需要的兄弟们可以在我公众号留言。

论文解读的ppt可以在知识星球获取：

我正在「目标检测er的小圈子」和朋友们讨论有趣的话题，你⼀起来吧？

https://t.zsxq.com/0cM8tmd4l