本文来自于AR领域最著名的学术会议ISMAR,结合了之前介绍过的图割理论。作者提出了一种语义平面 SLAM 系统,该系统使用来自实例平面分割网络的线索来改进位姿估计和映射。虽然主流方法是使用 RGB-D 传感器,但在这样的系统中使用单目相机仍然面临着鲁棒的数据关联和精确的几何模型拟合等诸多挑战。在大多数现有工作中,几何模型估计问题,例如单应性估计和分段平面重建(piece-wise planar reconstruction,PPR),通常由标准(贪婪)RANSAC解决。然而,在缺乏场景信息(即尺度)的情况下,设置RANSAC的阈值是很非常困难的。在这项工作中,作者认为可以通过最小化涉及空间相干性的能量函数来解决两个提到的几何模型(单应性/3D平面),即图割优化,这也解决了经过训练的CNN的输出是不准确的问题。此外,作者根据实验提出了一种自适应参数设置策略,并完成了对各种开源数据集的综合评估。语义平面SLAM在过去十年中备受关注,尤其是对于虚拟现实 (virtual reality,VR) 系统和增强现实(augmented reality,AR)应用。尽管现在很多人对这个主题进行了深入的研究,但目前大多数方法仍然集中在RGB-D传感器和从深度图像中提取平面图元。单目方法仍然面临一些挑战和困难,例如无纹理场景、动态前景、相机的纯旋转、帧之间的各种基线和尺度漂移,其中平面图元只能从有限的3D中获得的信息。现有的方法要么建立在间接 SLAM 上,要么建立在直接 SLAM上,但两者都面临着前面提到的挑战。在这项工作中,作者认为在单目 SLAM 系统中通常无法有效解决数据关联和几何模型拟合问题,即在从不同视点(在小基线或大基线下)或从相同视点(在纯旋转下)的帧之间建立多平面的特征匹配,实现单应性估计和分解。为了相对地定位相机,通常通过三角测量(正深度验证)并最小化图像对之间的对称传递误差(symmetric transfer error,STE)来验证合理的单应矩阵。然而,仅从相对姿态估计无法观察到映射尺度。同时,3D 平面只能根据单目设置下的多组包含噪声并且稀疏的点云拟合。因此,为了解决单目系统的问题,作者首先将实时的实例平面分割网络集成到基于特征的 SLAM 系统中。然后,作者以顺序 RANSAC 方式解决多模型拟合问题,并使用了快速图切割优化引擎技术。其核心有以下2点:
引入了一种基于能量的几何模型拟合方法,即将具有图割优化的顺序 RANSAC 转换为基于特征的平面 SLAM 系统,该系统隐式地将 SLAM 视为优化不同类型的几何多模型估计。
提出了一个 SLAM 构建块,它集成了上述基于能量的方法和实例平面分割的最新的卷积神经网络 (CNN)。因此,作者没有将 CNN 的任何输出作为无噪声的“sensor”测量,而是在 SLAM 工作流程中对其进行进一步优化,从而提高了跟踪和优化的性能。