arxiv论文整理20240127-0202(目标检测方向)-技术圈

You Only Look Bottom-Up for Monocular 3D Object Detection（Robotics and Automation Letters (RA-L)）

摘要：单目式三维物目标检测是自动驾驶中的一个重要任务。与此同时，由于丢失了深度信息，从纯图像中准确地进行三维目标检测是非常具有挑战性的。大多数现有的基于图像的方法根据图像平面上物体的二维大小推断其在三维空间中的位置，这通常忽略了图像固有的位置线索，导致性能不尽人意。受到人类可以利用自下而上的位置线索从单个图像中定位物体的启发，本文中我们从图像特征列探索位置建模，并提出了一种名为You Only Look Bottum-Up（YOLOBU）的新方法。具体来说，我们的YOLOBU利用基于列的交叉注意力来确定一个像素在多大程度上对其上方的像素做出贡献。接下来，我们引入了基于行的累积反向求和（RRCS），以建立像素在自下而上方向上的连接。我们的YOLOBU通过自下而上的方式充分探索了单目式三维检测中的位置线索。对KITTI数据集的大量实验证明了我们方法的有效性和优越性。

点评：首次提出了一种自底向上的单目相机三维目标检测方法。

LiDAR-PTQ: Post-Training Quantization for Point Cloud 3D Object Detection（ICLR 2024）

摘要：由于计算能力和内存受到严重限制，在自动驾驶车辆和机器人上配备边缘设备部署基于3D激光雷达的检测器面临着重大挑战。作为一种方便且简单的模型压缩方法，后训练量化（PTQ）已被广泛应用于2D视觉任务。然而，将其直接应用于3D激光雷达任务必然导致性能下降。为了解决这一问题，我们提出了一种名为LiDAR-PTQ的有效PTQ方法，专门为3D激光雷达检测（基于SPConv和不基于SPConv）而设计。我们的LiDAR-PTQ具有三个主要组件，分别是(1)基于稀疏性的校准方法，用于确定量化参数的初始化，(2)任务引导的全局正向损失（TGPL），以减少量化前后最终预测之间的差异，(3)自适应的四舍五入操作，以最小化逐层重构误差。大量实验证明，我们的LiDAR-PTQ在应用于CenterPoint（基于柱和基于体素）时可以实现最先进的量化性能。据我们所知，首次在激光雷达3D检测任务中，PTQ INT8模型的准确性几乎与FP32模型相当，同时还享受到3倍的推理加速。此外，我们的LiDAR-PTQ在成本上也非常划算，比量化感知训练方法快30倍。代码将在https://github.com/StiphyJay/LiDAR-PTQ上发布。

点评：在资源受限的边缘设备上，能够有效地解决传统方法在处理复杂场景和小型目标时的困难。代码已开源。

MixSup: Mixed-grained Supervision for Label-efficient LiDAR-based 3D Object Detection（ICLR 2024）

摘要：目前，基于LiDAR的三维目标检测在标签效率方面主要以弱/半监督方法为主导。我们提出了一种更为实用的范例MixSup，同时利用大量廉价的粗标签和有限数量的准确标签进行混合粒度监督。我们首先观察到点云通常是无纹理的，这使得学习语义变得困难。然而，点云在几何上是丰富多样的，并且与传感器距离的尺度无关，这使得学习物体的几何形状和姿势相对容易。因此，MixSup利用大量粗粒度聚类级标签来学习语义，利用少量昂贵的框级标签来学习准确的姿势和形状。我们重新设计了主流检测器中的标签分配方式，使它们能够无缝集成到MixSup中，实现了实用性和通用性。我们在nuScenes、Waymo Open Dataset和KITTI上使用各种检测器验证了其有效性。MixSup在使用廉价的聚类注释和仅有10%的框注释时，实现了高达97.31%的全监督性能。此外，我们基于“Segment Anything Model”提出了PointSAM用于自动粗标注，进一步减轻了注释的负担。代码可在 GitHub - BraveGroup/PointSAM-for-MixSup: Codes for ICLR 2024: "MixSup: Mixed-grained Supervision for Label-efficient LiDAR-based 3D Object Detection" 上找到。

点评：提出了一种实用且通用的范式，利用混合粒度的监督方式，实现了标签效率的LiDAR基3D目标检测。代码已开源。

YOLO-World: Real-Time Open-Vocabulary Object Detection

摘要： YOLO系列检测器已经被证实是高效且实用的工具。然而，它们对预定义和经过训练的物体类别的依赖限制了它们在开放场景中的适用性。为了解决这一限制，我们引入了YOLO-World，这是一种创新的方法，通过视觉-语言建模和在大规模数据集上的预训练来增强YOLO的开放词汇检测能力。具体来说，我们提出了一种新的可重新参数化的视觉-语言路径聚合网络（RepVL-PAN），以及区域-文本对比损失，以促进视觉和语言信息之间的交互。我们的方法在零样本条件下以高效率检测各种物体。在具有挑战性的LVIS数据集上，YOLO-World在V100上以52.0 FPS的速度实现了35.4的AP，在准确性和速度方面胜过许多最先进的方法。此外，经过微调的YOLO-World在多个后续任务上表现出了显著的性能，包括目标检测和开放词汇实例分割。

点评：结合了实时目标检测与开放词汇能力，通过视觉-语言模型和创新的RepVL-PAN架构，实现了对未知和罕见物体类别的高效、准确检测。代码已开源： https://github.com/AILab-CVC/YOLO-World。

ps：承接程序代写，小程序编写程序应用深度学习卷积神经网络 pytorch paddlepaddle 数据结构机器学习目标检测图像处理

有需要的兄弟们可以在我公众号留言。

论文解读的ppt可以在知识星球获取：

我正在「目标检测er的小圈子」和朋友们讨论有趣的话题，你⼀起来吧？

https://t.zsxq.com/0cM8tmd4l