单眼视觉系统以低成本高性能实现令人满意的效果,但无法提供可靠的3D几何信息。双目摄像机可以提供3D几何信息,但是它们的计算成本很高,并且无法在高遮挡和无纹理的环境中可靠地工作。另外,该系统在复杂的照明条件下鲁棒性较低,这限制了其全天候能力。激光雷达不受光照条件的影响,可以提供高精度的3D几何信息。但是它的分辨率和刷新率很低,而且成本很高。
Camera-Lidar融合提高了性能和可靠性并降低了成本,但这并不容易。首先,相机通过将现实世界投影到相机平面上来记录信息,而点云以原始坐标的形式存储几何信息。此外,就数据结构和类型而言,点云是不规则,无序和连续的,而图像是规则,有序和离散的。这导致图像和点云处理算法的巨大差异。
参考文献中 [1] 提出了一种新颖的3D目标检测器,它可以利用激光雷达和摄像机进行非常精确的定位。为了实现这一目标,他们设计了一种端到端的可学习架构,该架构利用连续卷积融合不同分辨率级别的图像和LIDAR特征图。这使我们能够设计基于多个传感器的新颖,可靠,高效的端到端可学习3D对象检测器。