本文来自于AR领域最著名的学术会议ISMAR,结合了之前介绍过的图割理论。作者提出了一种语义平面 SLAM 系统,该系统使用来自实例平面分割网络的线索来改进位姿估计和映射。虽然主流方法是使用 RGB-D 传感器,但在这样的系统中使用单目相机仍然面临着鲁棒的数据关联和精确的几何模型拟合等诸多挑战。在大多数现有工作中,几何模型估计问题,例如单应性估计和分段平面重建(piece-wise planar reconstruction,PPR),通常由标准(贪婪)RANSAC解决。然而,在缺乏场景信息(即尺度)的情况下,设置RANSAC的阈值是很非常困难的。在这项工作中,作者认为可以通过最小化涉及空间相干性的能量函数来解决两个提到的几何模型(单应性/3D平面),即图割优化,这也解决了经过训练的CNN的输出是不准确的问题。此外,作者根据实验提出了一种自适应参数设置策略,并完成了对各种开源数据集的综合评估。语义平面SLAM在过去十年中备受关注,尤其是对于虚拟现实 (virtual reality,VR) 系统和增强现实(augmented reality,AR)应用。尽管现在很多人对这个主题进行了深入的研究,但目前大多数方法仍然集中在RGB-D传感器和从深度图像中提取平面图元。单目方法仍然面临一些挑战和困难,例如无纹理场景、动态前景、相机的纯旋转、帧之间的各种基线和尺度漂移,其中平面图元只能从有限的3D中获得的信息。现有的方法要么建立在间接 SLAM 上,要么建立在直接 SLAM上,但两者都面临着前面提到的挑战。在这项工作中,作者认为在单目 SLAM 系统中通常无法有效解决数据关联和几何模型拟合问题,即在从不同视点(在小基线或大基线下)或从相同视点(在纯旋转下)的帧之间建立多平面的特征匹配,实现单应性估计和分解。为了相对地定位相机,通常通过三角测量(正深度验证)并最小化图像对之间的对称传递误差(symmetric transfer error,STE)来验证合理的单应矩阵。然而,仅从相对姿态估计无法观察到映射尺度。同时,3D 平面只能根据单目设置下的多组包含噪声并且稀疏的点云拟合。因此,为了解决单目系统的问题,作者首先将实时的实例平面分割网络集成到基于特征的 SLAM 系统中。然后,作者以顺序 RANSAC 方式解决多模型拟合问题,并使用了快速图切割优化引擎技术。其核心有以下2点:
引入了一种基于能量的几何模型拟合方法,即将具有图割优化的顺序 RANSAC 转换为基于特征的平面 SLAM 系统,该系统隐式地将 SLAM 视为优化不同类型的几何多模型估计。
提出了一个 SLAM 构建块,它集成了上述基于能量的方法和实例平面分割的最新的卷积神经网络 (CNN)。因此,作者没有将 CNN 的任何输出作为无噪声的“sensor”测量,而是在 SLAM 工作流程中对其进行进一步优化,从而提高了跟踪和优化的性能。
最后作者进行了详尽的实验,并总结了在单目和 RGB-D 设置下对各种室内数据集的综合评估。图1 顺序图割 RANSAC实现鲁棒的分段平面重建(PPR)。图示为从稀疏和包含噪声的点云中重建轻量级语义图。不同的颜色表示不同的平面。图2 所提框架作者首先介绍了用于几何模型拟合的标准顺序RANSAC pipeline(一种单应性或平面结构),将语义线索作为图像序列的输入。然后,为了有效处理实例分割网络的可能错误分类,作者并没有简单地对每个检测到的平面段使用标准的 RANSAC 平面拟合算法,而是在内部优化步骤(算法1)中使用局部优化的 RANSAC 交替图割和模型重拟合实现更鲁棒的pipeline,以自适应不准确的实例分割和噪声。所提基于特征的 SLAM 框架,如图2所示。方法核心:通过 RANSAC 进行几何模型拟合标准 RANSAC是一种众所周知的方法,用于在数据中进行单一的模型拟合。隐式一元能量函数为:使用 0-1 度量计算目标模型的内点,可以重新表述为二元标记问题,参数θ表示为在某个阈值ε内具有最大内点数的模型的向量:顺序 RANSAC 通过一个一个地检测模型实例,将检测到的实例的内点从数据点集 P 中删除。但这种方法的缺点是内点通常分配给包含最多内点的平面而不是实际的最佳实例。具有空间连贯性的顺序模型拟合多几何模型的拟合问题通常被表述为一个最优标记问题,其中二元能量 E(L) 可以扩展为一个附加项,表示标签计数惩罚(标签平滑度)和一个表示空间规律的项。本文中作者使用的能量函数如下:其中第一项表示数据点和相应模型之间的几何误差度量,第二项表示空间正则化,用于惩罚图中具有不同标签的邻域。N表示由数据点集构建的近邻图中的边(例如图 1 中的 Potts 模型)。权重 Wpq 是为每对近邻数据点设置的不连续性惩罚因子。λ是平衡这两项的参数。视觉SLAM框架首先进行系统初始化和映射初始化。对于单目 SLAM,作者在初始化步骤中提出了的算法1,其中 Homography 矩阵和 Fundamental 矩阵是并行计算的,同时使用对称传递误差 (STE) 来测量匹配特征点 p = (pref ; pcur) 之间的几何误差 ||Hp||。非线性最小化的初始解是通过使用具有最小的 4 个对应关系的归一化直接线性变换 (Normalized Direct Linear Transform,NDLT) 得到的。然后对单应性应用能量最小化:其中 H = {H|p属于P}是模型对参考帧中特征点 p 的匹配部分,邻域系统 中N 利用基于图像空间上的网格邻域构造,最小采样(4 个对应)由渐进式 NAPSAC 采样器在该图像网格中采样得到。然后进行局部平面的扩展和映射重估计。实验环节:实例分割是语义平面重建的先验信息。然而,如图 3 所示,基于全局的实例分割方法(即 PlaneSegNet)存在特征丢失,有时无法区分相同纹理的不同特征。需要注意的是,该网络未在作者用于评估 SLAM 的数据集上进行训练,该数据集模拟了实际情况,因为经过训练的 CNN 在不同的实际场景下可能无法泛化。这也是作者在这项工作中引入图割方法的原因,可以将其视为实例分割的后处理步骤。图3 PlaneSegNet 和 PlaneRCNN 在数据集 TUM RGB-D上的分割结果比较。图4 在数据集 TUM RGB-D 和 ICL-NUIM 的选定序列上构建的轻量级语义图(点和平面patch面,以及放大后的最佳视图)。表 1:绝对轨迹误差 RMSE [cm](X 代表跟踪失败,- 代表无法从相应论文中获得的结果)。作者的结果,ORB-SLAM2 和 OpenVSLAM 的每个结果都为每个序列执行 5 次的平均值表 2:在单目设置下,作者的平面 SLAM 系统与原始 ORB-SLAM2 和 OpenVSLAM 相比的运行时间分析 [ms](在数据集 TUM RGB-D上评估的平均值:fr3 st tex far),使用台式 PC Intel Xeon(R) E-2146G 12 核 CPU @ 3.50GHz,32GB RAM。PlaneSegNet 在 NVIDIA GTX 1080 Ti 的标准 GPU 上进行评估。备注:作者也是我们「3D视觉从入门到精通」特邀嘉宾:一个超干货的3D视觉学习社区