arxiv论文整理20230506-0512(目标检测方向)-技术圈

DSPDet3D: Dynamic Spatial Pruning for 3D Small Object Detection

摘要：
在本文中，我们提出了一个新的检测框架，用于3D小目标检测。尽管近年来基于深度学习的三维目标检测方法取得了巨大的成功，但由于几何信息较弱，目前的方法在小物体上仍然很困难。通过深入研究，我们发现提高特征图的空间分辨率可以显著提升三维小目标检测的性能。更有趣的是，尽管计算开销随着分辨率的提高而急剧增加，但其增长主要来自解码器的上采样操作。受此启发，我们提出了一个名为DSPDet3D的具有动态空间修剪功能的高分辨率多级检测器，该检测器通过迭代上采样从大到小检测物体，同时在没有较小物体的区域修剪场景的空间表示。由于三维检测器只需要预测稀疏的边界框，修剪大量无信息的特征并不会降低检测性能，而是大大降低了上采样的计算成本。这样一来，我们的DSPDet3D在小物体检测上达到了很高的精度，同时需要更少的内存占用和推理时间。在ScanNet和TO-SCENE数据集上，我们的方法将小物体的检测性能提高到了一个新的水平，同时在所有主流室内三维目标检测方法中实现了领先的推理速度。

点评：
提出了一个名为DSPDet3D的具有动态空间修剪功能的高分辨率多级检测器，用于3D小目标检测。代码已开源：
https://github.com/xuxw98/DSPDet3D

PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR Point Clouds（CVPR 2023）

摘要：
为了处理稀疏和非结构化的原始点云，基于LiDAR的三维目标检测研究大多集中在设计专用的局部点聚合器来进行细粒度的几何建模。在本文中，我们从分配计算资源的角度重新审视局部点聚合器。我们发现，考虑到精度和延迟，最简单的基于pillar的模型表现得出奇地好。此外，我们还表明，从二维目标检测的成功经验中进行最小的调整，如扩大感受野，可以显著提高性能。广泛的实验表明，我们基于pillar的网络在架构和训练方面的现代化设计在两个流行的基准上呈现出最先进的性能： Waymo开放数据集和nuScenes。我们的结果挑战了常见的直觉，即详细的几何建模对于实现高性能的三维目标检测是必不可少的。

点评：
研究了基于LiDAR点云的3D目标检测，发现详细的几何建模可以提升性能。

Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision Transformers（CVPR 2023）

摘要：
我们提出了区域感知的开放词汇视觉Transformer（RO-ViT）--一种对比性的图像-文本预训练配方，以弥补图像级预训练和开放词汇目标检测之间的差距。在预训练阶段，我们建议随机裁剪和调整位置嵌入的区域，而不是使用整个图像的位置嵌入。这与检测微调阶段在区域层面上使用位置嵌入的做法更加匹配。此外，我们用focal损失取代了对比学习中常见的softmax交叉熵损失，以更好地学习信息量大但难度高的例子。最后，我们利用最近在新型对象建议框方面的进展来改进开放词汇检测的微调。我们在LVIS和COCO开放词汇检测基准和零样本迁移上评估了我们的完整模型。RO-ViT在LVIS上取得了最先进的32.1APr，超过了现有最好的方法+5.8百分点，此外，零样本迁移检测也具有竞争力。令人惊讶的是，RO-ViT也改善了图像级别的表示，在COCO和Flickr图像-文本检索基准的12个指标中，有9个指标达到了最先进的水平，超过了一些较好的大模型方法。

点评：
改进预训练阶段、损失函数，用于开放词汇的目标检测。

ps：承接程序代写，小程序编写程序应用深度学习卷积神经网络 pytorch paddlepaddle 数据结构机器学习目标检测图像处理

有需要的兄弟们可以在我公众号留言。

ppt（有备注，可直接讲）可以在知识星球获取：

我正在「目标检测er的小圈子」和朋友们讨论有趣的话题，你⼀起来吧？

https://t.zsxq.com/0cM8tmd4l