Complexer-YOLO：基于语义点云的实时三维目标检测与跟踪-技术圈

全网搜集目标检测文章，人工筛选最优价值内容

编者荐语

基于语义点云的实时三维目标检测与跟踪，是计算机视觉CV中的一个基本问题，同时在自动驾驶、AR/VR以及机器人等领域中都起到巨大的作用。

转载自 | 泡泡机器人SLAM

摘要

基于自动驾驶领域最为先进的3D目标检测与视觉语义分割技术，我们提出了一种新的融合神经网络。此外，我们还引入了尺度旋转平移分子（SRTs），这是一种快速且高度参数化的对比目标检测效果的评估指标，它将我们的推理时间提高了20%同时促使训练时间减半。在此基础上，我们将最先进的在线多目标特征跟踪技术应用于目标测量中，进一步提高了利用时间信息的准确性和鲁棒性。我们在KITTI上的实验表明，我们在所有相关类别中都取得了与最新技术相同的结果，同时保持了性能和准确性的折衷，并且仍然实时运行。此外，我们的模型是第一个融合视觉语义和三维目标检测的模型。

主要贡献

1. 视觉类特征：结合了基于相机的快速语义分割生成的可视逐点类特征

2. 体素化输入：扩展Complex-YOLO处理具有可变尺寸深度而不是固定RGB贴图的体素化输入特征

3. 真正的3D预测：扩展回归网络以预测3D框的高度和z偏移，以在三个维度上处理目标。

4.刻度-旋转-平移分数（SRT）：考虑到检测到的对象的3DoF姿势（包括偏航角，例如宽度，高度和长度），我们引入了SRT，这是一种用于3D盒子的新验证指标，明显比IoU更快。

5.多目标跟踪：在线特征跟踪器的应用与检测网络分离，可以基于实际的物理假设进行结合时间的跟踪和目标实例化。

6.实时功能：尽管语义分割，3D对象检测（例如多目标跟踪）方面有最新的成果，但我们提供了新的具有出色的全面实时功能的跟踪管道。可以将管道直接引入感知城市风光的每辆自动驾驶汽车中。

算法结构

下图为Complexer-YOLO处理管道：

A.点云预处理

每个体素，在其3D空间中至少存在一个点，并且对前置相机可见，每个体素都填充有从范围[1、2]中的语义映射中提取的归一化类值。

B.深度和颜色渲染

通过步长2的卷积来替换最大池化层，并添加残差联接层。总共有49个卷积层。此外，我们加入目标高度h和地面偏移z作为目标回归参数，并将二者合并到多单元损失函数中。

在训练过程中，通常使用IoU来对比检测值和地面真值。但是，在比较旋转边框时，以上参考值存在缺点。如果两个边框的大小和位置相同，角度相差π 这两个边框之间的IoU是1，这意味着它们完全匹配。显然不是这样，因为两个边框之间的角度存在最大的差异。因此，在训练一个网络时，它不会因为预测这样的边框而受到惩罚甚至鼓励。这将导致对目标方向的错误预测，同时计算三维空间中旋转边框的精确IoU也是一项耗时的任务。

为了克服这两个问题，我们引入了一个新的高度参数化的简单评价指标称为缩放旋转平移分数（SRTs）。

所有之前的分数都在区间[0，1]内，可以使用简单的加权平均值和惩罚点组合成最终分数（Ssrt）。

SRT与网络必须完成的三个子任务（旋转、位置、大小）完美地结合在一起，以便预测具有偏航角的3D边框。

C.LMB RFS中的扩展目标模型

在LMB更新步骤中，每个预测目标与时间步的每个测量相关联，并且根据所定义的测量模型执行更新。

主要结果

Abstract

Complexer-YOLO: Real-Time 3D Object Detection and Tracking on Semantic Point Clouds Accurate detection of 3D objects is a fundamental problem in computer vision and has an enormous impact on autonomous cars, augmented/virtual reality and many applications in robotics. In this work we present a novel fusion of neural network based state-of-the-art 3D detector and visual semantic segmentation in the context of autonomous driving. Additionally, we introduce Scale-Rotation-Translation score (SRTs), a fast and highly parameterizable evaluation metric for comparison of object detections, which speeds up our inference time up to 20% and halves training time. On top, we apply state-of-the-art online multi target feature tracking on the object measurements to further increase accuracy and robustness utilizing temporal information. Our experiments on KITTI show that we achieve same results as state-of-the-art in all related categories, while maintaining the performance and accuracy trade-off and still run in real-time. Furthermore, our model is the first one that fuses visual semantic with 3D object detection.

✄------------------------------------------------

双一流大学研究生团队创建，一个专注于目标检测与深度学习的组织，希望可以将分享变成一种习惯。

整理不易，点赞三连！

​Complexer-YOLO：基于语义点云的实时三维目标检测与跟踪

Complexer-YOLO：基于语义点云的实时三维目标检测与跟踪