ICRA 2021论文汇总：视觉-惯性/视觉SLAM-技术圈

点击下方卡片，关注“新机器视觉”公众号

视觉/图像重磅干货，第一时间送达

作者丨zzyy@知乎

来源丨https://zhuanlan.zhihu.com/p/388715878

编辑丨3D视觉工坊

一、视觉惯性组合(21)

1.cooperative Transportation of Cable Suspended Payloads with MAVs Using Monocular Vision and Inertial Sensing

一个基于视觉-惯性系统的无人机索吊运输系统，贡献点在于
a)提出了一种基于视觉的分布式控制系统
b)一种分布式的状态估计方法，可以估计每个为无人机的吊索方向，以及移动速度
c)一种联合估计方案，可以推断载荷的完整6自由度状态
工作的重点在于通过多个无人机上的camera+imu传感器进行融合，进行载荷的位置，姿态估计；具体的实现思路为，先通过VIO方法获得每个为无人机的速度，位姿估计；再建立动力学方程，可以由无人机位姿，速度推知载荷的状态；最后把多个状态放到EKF中，进行状态估计

2.Highly Efficient Line Segment Tracking with an IMU-KLT Prediction and a Convex Geometric Distance Minimization

中科大自动化所和人工智能学院；该方案在open_vins项目上改造而成
贡献点在于：基于直线特征的VIO方案，利用IMU加速匹配，并提高了准确率
传统的基于描述子的线段跟踪方法准确性和速度无法保证实时处理，影响slam系统表现；该文提出了一种IMU+KLT光流对线段位置进行预测的方法，并且建立一个基于几何距离的优化方程，来进行匹配；可以增加跟踪的准确性和速度；inlier ratio 增加了35.1%，速度增加了3倍
对于直线的匹配，首先在直线上进行多个点的采样，通过传感器产生的R,t，将其投影到另张图片中，（其假设两张图之间的深度不变），再通过建立点到直线的距离约束，角度约束，中点距离约束，这三个约束来构建一个最小二乘问题，求解这个问题，即可到到对应匹配直线
对于点的匹配，第一张图上直线l1的点p1可根据F得到对应极线F*p1，第二张图片上得l2由上一步得到，那么对应点即为，极线于l2的角点，此点位置可能出现误差，还要最后进行一次直线上的块匹配，使用的是NCC(归一化互相关)来计算其相关性。

3.Range-Focused Fusion of Camera-IMU-UWB for Accurate and Drift-Reduced Localization

基于VINS-mono改造而来
本文使用了相机，imu，UWB( Ultra-wideband anchor)来构建一种紧耦合框架；UWB是一种用于近距离定位的设备，有发送端，接收端，构成；测量结果可以直接得到对应的距离和方位。类似于GPS的作用。
贡献点：
1.之前使用UWB的方案存在 1.UWB和相机接收时间的误差产生影响 2.仅单点测量，没有数据连续性；该方案，使用一种“range-focused” 的UWB方案，将VIO策略对UWB的测量进行fix
2.构建了单目相机 + IMU + UWB 的紧耦合方案，可以对系统产生的drift进行矫正(UWB是一个绝对位置测量的设备，不存在累计误差，很容易拿来矫正误差)；并且可以在UWB的接收端未知的场景下运用。

4.Learned Uncertainty Calibration for Visual Inertial Localization

UCLA 团队
对协方差进行学习，并矫正
本文提出：对EKF的状态估计来说，对于状态的均值一般估计的都比较准确，但是对于方差的估计一般都是不准确的。特别的，对于视觉-惯性定位来说，这种协方差的不准确是系统性的。那么可以通过学习的方法来其改正（ i.e. it is possible to learn a nonlinear map from the empirical ground truth to the estimated one.）

5.Visual-Laser-Inertial SLAM Using a Compact 3D Scanner for Confined Space

卡耐基梅隆，普渡大学团队
用于封闭空间的视觉-惯性-雷达三维重建，挑战在于在很多封闭空间中，缺乏定位的设备，并且很多传感器在距离非常近的时候没有办法使用。
所以该团队设计了一个2.7cm * 1cm *1.5cm大小的RGB相机+imu+laser 的小型集成传感器，并且成本低廉。并提出了一种用于单目相机的可调快门方法来进行三维重建，主要的贡献在于硬件上。

6.Robust Monocular Visual-Inertial Depth Completion for Embedded Systems

黄国权团队的论文基于EKF方案
对于传统的深度估计设备如深度传感器，可能无法在嵌入式系统上工作。作者其open-vins的基础上，使用一种基于学习的方法，由open-vins得到的稀疏深度估计，结合图片完成对稠密深度图进行估计。
因为基于先验稀疏深度+深度估计的策略，比单一的由图像进行深度估计准确性好，送一在这项工作中，他们扩展了 FastDepth 架构以支持稀疏深度输入和彩色图像，并研究了该网络对 VIO误差的敏感性
贡献：
1.验证了：由VIO系统造成的稀疏深度点噪声，不仅会影响稠密深度估计的准确性，并且会导致其表现比仅有单目图像进行深度估计的效果差
2.提出了一种可以解决问题1的并且具有较高鲁棒性的网络、在不改变网络架构的基础上几乎可以推广到任何稀疏深度补全网络
3.对openVINS 做了一点调整，让其可以输出高质量的稀疏深度；以便更好用于深度补全网络

7.Range-Visual-Inertial Odometry: Scale Observability without Excitation

加州理工JPL实验室
该论文主要研究点在于，无激励的尺度可观察性；基于EKF方案
VIO的可观性分析：在通常情况下VIO除了全局位置以及重力向量以外的状态都是可观的，这些不可观察的量意味着 VIO 位的置和航向估计在任何有噪声的条件下都会发生漂移。在实际中，这种漂移在许多小规模运行的机器人场景中是可以接受的 [论文1](K. J. Wu and S. I. Roumeliotis. Unobservable Directions of VINS Under Special Motions. Technical report, University of Minnesota, 2016.)分析了在两种情况下，1：当系统不做旋转运动时，三个旋转向量是不可观的2.系统做零速或匀速运动时，运动的尺度是不可观的
在很多的机器人运动状态中，匀速运动是一个很常见的状态，但是在这种状态下，加速度计输出为0（对于零加速度或恒加速度运动，尺度不再位于可观察性矩阵的右零空间中），那么通过IMU就无法获得尺度信息。因此在该方案中加入了一维激光测量（range）来弥补这一缺陷。所构建的Range-Visual-Inertial Odometry可以用于任何运动状态下。该方案进行了开源（github.com/jpl-x）
贡献点：
1.一个基于激光测量（range）的VIO模型
2.一个线性范围的VIO可观测性分析

8.Mid-Air Range-Visual-Inertial Estimator Initialization for Micro Air Vehicles

加州理工JPL实验室
与上文同理，为了解决飞行器的悬停，匀速运动初始化的问题，因为此时姿态，尺度不可观。所以引入一维激光传感器进行初始化弥补上述缺陷
创新点在于：
1，可在悬停，匀速，自由落体等状态下初始化系统 2，运算速度加快

9.VINS-Motion: Tightly-Coupled Fusion of VINS and Motion Constraint

没找到该文

10.Collaborative Visual Inertial SLAM for Multiple Smart Phones

多部智能手机协同的视觉-惯性SLAM
浙江大学
在每个设备上独立运行VIO算法，再发送到中心服务器中对地图进行检测，合并，优化，并可以在多机之间共享
贡献点：
1.建立了多部智能手机协同的视觉-惯性SLAM系统，自称是首个多机，跨平台的协同SLAM系统
2.多个地图之间的准确，鲁棒的融合策略，即建立了基于局部窗口用于重投影误差优化
地图的融合策略具体来说：
2.1 检测模块，一种是使用内部地图进行地点识别，另一种是与服务器地图容器进行匹配；
2.2 当发现两个不同地图中的关键帧存在匹配时，执行地图融合的步骤
2.2 建立局部窗口，在两个关键帧周围取M-1帧；根据已有地图建立的3D点，可以建立重投影误差的约束，解这个优化问题，即可得到相对位姿。然后就可以融合地图。

11.Revisiting visual-inertial structure from motion for odometry and SLAM initialization

将视觉-惯性结构用于SFM和SLAM初始化
该文建立了一个直接三角化的结构，可以从未知3D点的观测值中进行初始化。这样的改变使得线性系统具有更简单的结构，只需要求解一个 6 × 6 线性系统即可。降低了超过50%的速度估计误差，以及3D点误差。并且在优化过程中减少了迭代的次数

12.Bidirectional Trajectory Computation for Odometer-Aided Visual-Inertial SLAM

中科大
轮式里程计+视觉+惯性的SLAM
对系统的外参做了可观性分析，是现有的可观性分析的一个补充；说明了在系统不做旋转运动的时候对无法加速度计的bias和外参进行观测；所以在第一次进行转向之前，进行一次反向计算（backward computation thread），调整之前的运动轨迹，可以提高位置估计的准确率。

13.Optimization-Based Visual-Inertial SLAM Tightly Coupled with Raw GNSS Measurements

中科大
基于优化的 GNSS+视觉+惯性SLAM；基于优化的策略，把重投影误差，IMU预积分误差以及GNSS测量误差（伪距误差，多普勒频移）在一个窗口内进行联合优化
贡献点：
1.构建了由重投影误差，IMU预积分误差，伪距误差，多普勒频移，边缘化误差组成的的一个大的优化模型
2.提出了两种方法，可以去除GNSS的测量噪声。

14.Cooperative Visual-Inertial Odometry

黄国权团队
研究了多机之间的协同建图的问题，对于多机器人系统来说，一个重要的问题就是：在电力，通讯带宽，算力有限的情况下，如何完成大规模机器人集群工作。所以需要一种有效的系统来作为支撑.
基于MSCKF 研究了两种多机之间协同VIO的算法，分别为集中算法和分布式算法
1.第一种为集中算法，跟踪机器人之间的互相关性，并优先考虑位姿的精度，每次更新时要求所有机器人之间进行通信。
2.第二种为分布式算法，忽略机器人之间的互相关性，是一种可扩展的，鲁棒，高效的分布式结构，每次更新时机器人只和相邻的机器人之间进行通信。多机器人之间使用协方差交叉（IC）的策略来保证一致性

15.Visual-Inertial Filtering for Human Walking Quantification

没找到该论文

16.VINSEval: Evaluation Framework for Unified Testing of Consistency and Robustness of Visual-Inertial Navigation System Algorithms

一个测试和评估的框架,可以用来检测算法的一致性和鲁棒性

17.CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth

苏黎世联邦理工
提出了一个深度估计网络+VIO的系统，使用Conditional Variational Autoencoder ( 条件变分自动编码器 ) 来对深度进行推理和编码构建了一个可以进行深度估计的网络；通过边缘化的VIO稀疏特征来增加初始深度估计的准确性和网络的泛化能力，之后利用估计得到的稠密深度联合VIO滑动窗口来恢复局部的场景几何信息
贡献点：

设计了一种带有实时稠密重建的VIO系统
提出了一种新颖的CVAE神经网络用来估计深度并对深度进行编码，充分利用了VIO稀疏深度图的信息，并且拥有很强的泛化能力
提出了一种新的计算Jacobian的方法，计算速度相对于传统的链式法则有了一个数量及的提升，并利用FEJ避免了重复计算。

整个系统使用open-vins作为框架基础，主要实现了稠密深度估计，但是其必须依赖于稀疏深度的外部输入，那么其使用场景肯定十分有限（弱纹理，快速运动等）
另外论文精读|CODEVIO：深度学习到的可优化稠密深度视觉惯导里程计 - 知乎 (zhihu.com)也对该文做了分析

8.Direct Sparse Stereo Visual-Inertial Global Odometry

驭势科技公司
建立了一个基于多传感器的紧耦合框架，包括双目相机，IMU，GNSS，地磁传感器，全都放到一个滑动窗口内进行优化，可以实现全局定位，局部定位，且不存在漂移
贡献点
1.基于直接法的紧耦合多传感器系统
这个工作是一个工程上的创新，自称是首个双目相机，IMU，GNSS，地磁传感器融合的Odometry

19.An Equivariant Filter for Visual Inertial Odometry

Australian National University 的Systems Theory and Robotics Group团队
代码开源 github.com/pvangoor/eqf
基于EKF，基于卡尔曼滤波的VIO其优点就在于其low memory requirement，cpu used，所以运行时间相比于优化方法要快
用于视觉惯性里程计的等变滤波器，
在本文中从几何角度分析了VIO问题，并提出了一个关于光滑商流形（smooth quotient manifold ）的新公式，并提出了一个新的李群，它可以传递地作用于这个流形并且与视觉测量兼容；这个滤波的方法在EuRoC dataset 上相比于其他EKF-based VIO algorithms. 有着 state-of-the-art performance

20.VID-Fusion: Robust Visual-Inertial-Dynamics Odometry for Accurate External Force Estimation

浙大FAST(Field Autonomous System & computing)团队,，一个紧耦合的视觉-惯性-动力学系统，方法基于vins-mono和Vimo改编而来，代码开源(github.com/ZJU-FAST-Lab), 在运动时可以感受外力的变化，如背负在无人机上的物体，使得系统在外力该改变的时候仍具有较好的鲁棒性
贡献点：
1.推导了external force preintegration，以及其对应的状态方程，
2.在vins了基础上构建了整套系统并进行测试，在风吹，悬挂重物的状况下，系统的姿态，位置可以较好的进行估计。结果显示均方误差有了提高

21.Run Your Visual-Inertial Odometry on NVIDIA Jetson: Benchmark Tests on a Micro Aerial Vehicle

在NVIDIA的jetson上测试了VINS-Mono, VINS-Fusion, Kimera, ALVIO, StereoMSCKF, ORB-SLAM2 stereo, ROVIO这些视觉惯性算法，衡量了他们的误差，并给出了一个数据集KAIST VIO dataset （github.com/zinuok/kaist）

22.LVI-SAM: Tightly-Coupled Lidar-Visual-Inertial Odometry Via Smoothing and Mapping

MIT 方案开源(github.com/TixiaoShan/L)
提出了一种紧耦合的雷达-视觉-惯性里程计，基于因子图构建；整个系统分为两个小的子系统：1.视觉-惯性系统(VIS ) 2. 雷达-惯性系统(LIS ) 。二者用一种紧耦合的方式相互关联；VIS 借助 LIS 进行初始化，反过来LIS 利用 VIS 估计进行初始猜测以支持扫描匹配。闭环首先由 VIS 识别，然后由 LIS 进一步细化。LVI-SAM 也可在两个子系统之一出现故障时发挥作用，这增加了其在无纹理和无特征环境中的鲁棒性。
贡献点

建立了一个基于因子图的紧耦合的LVIO的框架
基于上述策略，该框架是一个较为鲁棒的系统，可以避免传感器退化导致的失败情况

23.Super Odometry: IMU-centric LiDAR-Visual-Inertial Estimator for Challenging Environments

卡耐基梅隆大学，东北大学
建立了一个高分辨率的，多传感器的融合框架；提出了一种简单高效的形式来融合激光雷达，相机，imu，可以在感知退化的场景下完成鲁棒的状态估计；该里程计不同于传统的方案，主线程为IMU线程；结合了松耦合，紧耦合的优点。
整体分为三部分：1.imu 里程计，2 视觉惯性里程计 3.雷达惯性里程计
由视觉惯性，雷达惯性提供先验信息解决bias的估计问题，并且为IMU 里程计提供运动信息；并且该方案建立了一种八叉树代替static KD-tree来管理空间3D点，仅消耗原有时间的10%
在DARPA的比赛中取得了第一（地下通道）第二（城市环路）的成绩

二、其他传感器与惯性组合(5)

24.Airflow-Inertial Odometry for Resilient State Estimation on Multirotors

用于多旋翼飞机状态估计的气流惯性里程计，构建了一个气流传感器于IMU组合的算法
贡献点：

使用新颖的仿生 3D 气流传感器进行和IMU组合的航位推算
放宽环境中恒定风的普遍假设，并能够补偿具有挑战性的湍流风的影响

25.FAST-LIO: A Fast, Robust LiDAR-Inertial Odometry Package by Tightly-Coupled Iterated Kalman Filter

港大代码开源
基于滤波的方案，将激光雷达与惯性传感器做紧耦合；为了减少大量激光测量带来的计算量增大，提出了一种新的用来计算卡尔曼增益的方法；使得卡尔曼增益的计算仅取决于状态维数，而不是测量的维数

26.LIRO: Tightly Coupled Lidar-Inertia-Ranging Odometry

通过IMU+UWB+激光雷达使用滑动窗口解决里程计得漂移问题，主要方法为使用预积分和联合优化

三、惯性数据处理(2)

27.IMU Data Processing for Inertial Aided Navigation: A Recurrent Neural Network Based Approach

阿里巴巴
设计了一种循环神经网络（recurrent neural network）来处理原始加速度计和陀螺仪的数据，可以减少模型误差；为了保证系统的通用性，通过对IMU的数据进行回归来训练网络。而不是大多数方法所采用的IMU的位置和方向。并且提出了一种用于处理IMU数据的方法，包括损失函数，训练策略，数据预处理，增强等部分。
到底学习的是什么？在文中说到
‘’ Our objective is to represent gπ and π via a data driven way to achieve better performance compared to existing hand-crafted methods‘’
就是原有的IMU模型，包含BIas的误差，白噪声的影响；通常来说，需要在使用前以及使用中不断地对bias进行估计并矫正，而其学习的就是IMU的模型，免去估计的麻烦；

28.Reinforcement Learning for Orientation Estimation Using Inertial Sensors with Performance Guarantee

对惯性传感器+地磁计使用深度强化学习（DRL）来估计姿态，并对误差的收敛性进行了证明；自称是首个基于深度强化学习的并进行了误差收敛证明的姿态估计方法；自称可以用于一些传统数值方法处理困难的极端场景下。
学习的是什么?
本文把姿态的估计看作是一个更新的过程，每一次更新都有一个estimator gain；就像EKF的kalman gain一样；而该文就是把estimator gain的计算看作是一个强化学习的问题；

四、总结与分析

总共总结了28篇文章；其中视觉惯性23篇，其他传感器+惯性3篇，惯性传感器2篇；

对于视觉惯性来说28篇文章研究内容可被分为以下几类

1.多机系统的SLAM问题(1,10,14)

2.视觉惯性+其他传感器的SLAM问题(3,5,7,8,12,13,18,22,23)

这里的其他传感器包括了(uwb(3),1D laser(5,7,8),GNSS(13),GNSS+地磁传感器(18),lidar(22,23) )

可以看出多传感器进行组合仍是目前的一个热点研究方向，特别是和雷达融合达到了5篇，个人认为原因在于：一方面，雷达重建可以为导航定位提供高精地图，另一方面，雷达可以直接提供深度信息，并且在IMU无法产生足够激励时，为系统提供额外观测；另外与GNSS融合有两篇，个人认为引入GNSS的目的在于可以为系统提供绝对pose。方便进行全局定位。并且GNSS的观测不存在累计误差，可以用来消除VI系统的累计误差；uwb有一篇，其作用与GNSS相似，不过uwb提供的是室内场景的绝对pose，可以用于室内定位。

值得一提的是18，是一个无人驾驶公司的论文（驭势科技），他们采用了四种传感器进行组合（双目，imu，GNSS,地磁计）；说明在实际的工业场景中，这些公司认为越多的传感器信息，才能给系统提供更好的鲁棒性，准确性。

3.基于学习(4,6,17,27,28)

4中基于学习方法改善了EKF系统协方差的估计问题，在6，17中采用了基于学习的方法来建立稠密深度图。27，28则直接来学习IMU模型，期望使用学习的方法来得到更加准确的估计信息

基于学习的策略，仍是目前的一个主流研究方向；但是因为slam问题本身是可以用精确的数学模型来进行描述的，所以学习一般用于增强传感器的性能，像由单目恢复稠密深度，IMU模型改善。以及特定参数的学习如4学习的是协方差，28学习的是增益系数。

4.SLAM的数学问题(4,11,19）

4分析了关于协方差的问题，11分析了 19建立SE3上的问题，并提出了光滑商流形

5.测试评估(16,21)

提出了测试和评估的框架

6.SLAM的动力学问题(1,20,24)

这些动力学问题主要集中在无人机方面，即当有外力存在时（重物悬吊，大风），如何对系统进行建模，并解决SLAM问题

可以看出目前的研究热点还都集中在多传感器融合（VI+其他）以及学习方面。对于传统的vI-SLAM来说，研究的主要集中在对系统数学方面的分析，如何在真实场景下应用，而不再有太多大的问题需要解决。

其次ICRA2021 还召开了视觉惯性导航系统研讨会

该研讨会主要做了在线报告,分别相关的题目为：

Ping Tan (Alibaba) – Visual localization and dense mapping
Stefan Leutenegger (TUM) – Visual-inertial SLAM and Spatial AI for mobile robots
Resilient Visual Inertial Estimation for Agile Aerial Robots
VINS and its Applications in Mixed Reality
Maurice Fallon (Oxford) – Multi-Sensor Tracking to enable exploration of visually degraded underground environments
From Visual Navigation to Real-time Scene Understanding: Open Problems and Opportunities
Jonathan Kelly (UToronto) – A Question of Time: Revisiting Temporal Calibration for Visual-Inertial Navigation
Robust VIO in the Real World
VINS on Unknown Devices

总结与分析

该会议主要讨论了几个方向

1.视觉定位与稠密地图的建立

2.用于视觉SLAM的深度学习

3.飞行器的视觉惯性估计和感知

4.增强现实/虚拟现实

5.多传感器融合

随着相机和IMU的普及，提供高精度三维运动估计的视觉惯性导航系统（VINS）在从增强现实（AR）和无人机（UAV）到自动驾驶等广泛的应用中拥有巨大的潜力，部分原因是这些器件的传感能力互补以及成本和尺寸不断降低。

虽然视觉惯性导航与SLAM在过去十年中取得了巨大的进步，然而视觉惯性系统设计中的某些关键方面仍然没有得到很好的探索，极大地阻碍了这些系统在实践中的广泛部署。

例如，许多VINS算法对高动态和恶劣的照明条件还不够稳健；对于长期、大规模的场景，它们还不够精确；而且它们还不能提供语义和认知理解，以支持高层决策

可以看出这些讨论的问题与上述的本次会议接受论文大体相符。

会议视频回放地址为bilibili.com/video/BV19

仅用于学术分享，版权属于原作者。

若有侵权，请联系微信号:yiyang-sy 删除或修改！

—THE END—