arxiv论文整理20240210-0216(目标检测方向)-技术圈

Event-to-Video Conversion for Overhead Object Detection（SSIAI 2024）

摘要：使用事件摄像头收集空中影像是理想的，因为与标准摄像头相比，图像传感器的能效性更高。然而，事件摄像头使下游图像处理变得复杂，特别是对于复杂任务如目标检测。在本文中，我们研究了事件流在空中目标检测中的可行性。我们展示了在许多标准建模方法中，密集事件表示和对应的RGB帧之间存在显著的性能差距。我们确认这种差距在一定程度上是由于事件表示和用于初始化目标检测器权重的预训练数据之间的不重叠造成的。然后，我们应用事件转视频转换模型，将事件流转换为灰度视频以弥合这一差距。我们展示了这种方法能够获得大幅度的性能提升，在我们的空中目标任务中甚至胜过了事件特定的目标检测技术。这些结果表明，事件表示与现有大型预训练模型之间更好的对齐可能会带来比端到端事件特定架构改进更大的短期性能收益。

点评：将事件相机用于空中目标检测。

AYDIV: Adaptable Yielding 3D Object Detection via Integrated Contextual Vision Transformer（ICRA 2024）

摘要：将激光雷达和摄像头数据相结合在提升自动驾驶系统的短距离目标检测方面显示出了潜力。然而，由于激光雷达稀疏数据和摄像头的高密度分辨率之间的对比，这种融合在扩展距离检测方面遇到了困难。此外，两种数据表示的差异进一步复杂化了融合方法。我们引入了AYDIV，这是一个新颖的框架，集成了一个特别设计用于增强远距离检测能力的三阶段对齐过程，即全局上下文融合对齐变换器（GCFAT），它改进了摄像头特征的提取，并提供对大尺度模式的更深入理解；稀疏融合特征注意力（SFFA），它微调了激光雷达和摄像头细节的融合；以及立体网格注意力（VGA），用于全面的空间数据融合。AYDIV在Waymo Open Dataset（WOD）上的表现，mAPH值（L2难度）提高了1.24%，以及在Argoverse2 Dataset中AP值提高了7.40%，证明了与其他现有基于融合的方法相比，其有效性。我们的代码公开获取，网址为https://github.com/sanjay-810/AYDIV2

点评：结合了LiDAR和相机数据，以增强自动驾驶系统中远距离物体的检测能力。代码已开源。

Object Detection in Thermal Images Using Deep Learning for Unmanned Aerial Vehicles（2024 IEEE/SICE International Symposium on System Integration）

摘要：本文提出了一种神经网络模型，能够识别由无人机收集的热成像中的小物体和微小物体。我们的模型包括三个部分，即主干网络、颈部网络和预测头。主干网络基于YOLOv5的结构，结合了在最后采用Transformer编码器。颈部网络包括BI-FPN块，结合了滑动窗口和Transformer，以增加输入到预测头中的信息。预测头通过Sigmoid函数评估特征图来进行检测。注意力机制和滑动窗口的使用提高了识别准确性，同时使模型保持在嵌入式系统合理数量的参数和计算要求。在公共数据集VEDAI和我们收集的数据集上进行的实验证明，我们的模型比ResNet、Faster RCNN、ComNet、ViT、YOLOv5、SMPNet和DPNetV3等最先进方法具有更高的准确性。在嵌入式计算机Jetson AGX上进行的实验表明，我们的模型实现了实时计算速度，并具有超过90%的稳定性。

点评：利用深度学习技术对无人机拍摄的热图像进行目标检测，从而提高在复杂环境下的检测精度和效率。

Efficient One-stage Video Object Detection by Exploiting Temporal Consistency

摘要：最近，单阶段检测器在图像数据上的准确性和速度方面已经与传统的双阶段检测器取得了竞争力。然而，在视频物体检测（VOD）领域，大多数现有的VOD方法仍然基于双阶段检测器。此外，直接将现有的VOD方法改为单阶段检测器会带来无法承受的计算成本。本文首先分析了在VOD中使用单阶段检测器的计算瓶颈。在此基础上，我们提出了一个简单而高效的框架，通过利用视频帧中的时空一致性来解决计算瓶颈，并实现了高效的单阶段VOD。具体来说，我们的方法包括一个位置先验网络，用于过滤背景区域，以及一个大小先验网络，用于跳过对特定帧低级特征图的不必要计算。我们在各种现代单阶段检测器上测试了我们的方法，并在ImageNet VID数据集上进行了大量实验。优秀的实验结果证明了我们的方法具有卓越的有效性、高效性和兼容性。源代码可在https://github.com/guanxiongsun/vfe.pytorch 获取。

点评：通过利用时间一致性，实现了视频目标检测的高效性和准确性。代码已开源。

ps：承接程序代写，小程序编写程序应用深度学习卷积神经网络 pytorch paddlepaddle 数据结构机器学习目标检测图像处理

有需要的兄弟们可以在我公众号留言。

论文解读的ppt可以在知识星球获取：

我正在「目标检测er的小圈子」和朋友们讨论有趣的话题，你⼀起来吧？

https://t.zsxq.com/0cM8tmd4l