基于深度连续融合的多传感器三维目标检测-技术圈

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

单眼视觉系统以低成本高性能实现令人满意的效果，但无法提供可靠的3D几何信息。双目摄像机可以提供3D几何信息，但是它们的计算成本很高，并且无法在高遮挡和无纹理的环境中可靠地工作。另外，该系统在复杂的照明条件下鲁棒性较低，这限制了其全天候能力。激光雷达不受光照条件的影响，可以提供高精度的3D几何信息。但是它的分辨率和刷新率很低，而且成本很高。

Camera-Lidar融合提高了性能和可靠性并降低了成本，但这并不容易。首先，相机通过将现实世界投影到相机平面上来记录信息，而点云以原始坐标的形式存储几何信息。此外，就数据结构和类型而言，点云是不规则，无序和连续的，而图像是规则，有序和离散的。这导致图像和点云处理算法的巨大差异。

参考文献中 [1] 提出了一种新颖的3D目标检测器，它可以利用激光雷达和摄像机进行非常精确的定位。为了实现这一目标，他们设计了一种端到端的可学习架构，该架构利用连续卷积融合不同分辨率级别的图像和LIDAR特征图。这使我们能够设计基于多个传感器的新颖，可靠，高效的端到端可学习3D对象检测器。

模型架构