一文概览目标检测领域进展(数据集/2D/3D)
点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
目标检测一直是计算机视觉领域中一大难题。近日,来自阿尔伯塔大学的研究者对目标检测领域的近期发展进行了综述,涵盖常见数据格式和数据集、2D 目标检测方法和 3D 目标检测方法。
Map)是包含场景中目标表面与视点之间距离信息的图像或图像通道。深度图类似于灰度图像,只不过深度图中每个像素都是传感器与目标之间的实际距离。一般来说,RGB
图像和深度图是同时采集的,因此两者的像素之间存在一一对应关系。RGB-D 格式的数据集包括 Pascal VOC、COCO、ImageNet
等。
X、Y、Z 的三维坐标表示,是一种常用的外表面形状表示方式。不仅如此,除了由 (X,Y,Z) 表示的几何位置信息之外,每个点云还可能包含
RGB 颜色像素、灰度值、深度和法线。大多数点云数据都由 3D 扫描设备生成,比如激光雷达(2D/3D)、立体相机和
TOF(飞行时间)相机。这些设备可自动测量目标表面上大量点的信息,然后以 .LAS 和 .LAZ
这两种标准文件格式输出点云。这些点云数据是由扫描设备采集的。在用于训练的数据集中,除了点云数据,还有相应的 RGB 图像。这类数据集包括
KITTI [4]、nuScenes [5]、Waymo Open [6] 等。
nuScenes 数据集来训练和评估模型。nuScenes 数据集来自 nuTonomy,是一个大规模自动驾驶数据集,其中的数据进行了 3D
目标标注。与其它很多数据集相比,nuScenes 数据集不仅规模更大,目标标注更多,而且还提供了整套传感器套件,包括激光雷达、声波雷达、GPS 和
IMU。图 1 展示了 nuScenes 中一个激光雷达点云的示例。

[8]
提出了一种基于伽马校正和引导滤波的去雾算法:先使用伽马校正方法在去雾之前校正图像,然后再在校正后图像上执行三种不同尺度的引导滤波过程,过滤后的图像再使用
Retinex 模型修改,最后使用加权融合得到去雾的结果。通过此方法得到的去雾图像具有更高的对比度和颜色一致性。Wang [9]
重点研究了如何解决雾浓度分布不均的问题。根据波长与雾浓度的关系,他们针对交通监控图像构建了一个与波长相关的物理成像模型。然后,再根据波长与颜色的相关性,他们又基于最大模糊相关图切割设计了一种透射率估计算法。
3D 空间中的位置。尽管相机校准这一问题已得到广泛研究,但大多数校准方法都会固定相机位置并使用某个已知的校准模式。Basu [10]
提出了一种使用场景中的清晰边缘自动校准相机的方法,该方法可移动相机且无需事先定义一种模式。
nuScenes 数据集。[11]
提出了一种有效解决该问题的方法,并在这个新数据集上取得了优秀表现。他们首先使用数据增强策略,然后使用一些经过改进的 3D
特征提取网络,最后改进训练流程和对损失的评估,进而实现整体性能的提升。
transform)是图像处理过程中一种识别图像中几何形状的基本方法。举个例子,针对人脸跟踪问题,[13]
使用了一种基于梯度的霍夫变换来定位眼睛虹膜的位置。但是,对于非单视点(SVP)标准的图像,这样的变换无法直接用于特征识别。[14]
提出了一种解决该问题的数学模型。
Kanade–Lucas–Tomasi(KLT)等特征跟踪器跟踪下一帧中的特征。2005 年时,有作者 [18]
提出了一种方法,即使用高斯拉普拉斯算子(Laplace of Gaussian)和高斯加权函数来提升会受噪声影响的 KLT
跟踪性能。该加权函数耦合了边缘特征,从而得到了一种用于选取最优加权函数的确定性公式。这种方法仅会增加少量计算时间,但却为跟踪性能带来极大提升。
描述了一种方法,即使用梯度向量流 - 蛇(GVF snake)模型来提取相关轮廓。通过加入边缘检测和使用气道 CT
切片先验知识的蛇位移(snake shifting)技术,作者对原始 GVF - 蛇方法进行了改进,得到了更好的结果。这一技术可能也很有用。
能在背景消除任务上取得较高的准确率。但是,如果相机在移动,难度就会大得多。[21]
首先使用了鲁棒型主成分分析(RPCA)来提取背景运动,其假设背景场景可以描述为一种低秩矩阵,然后将帧分割为子像素以提升将光流转换为运动的幅度和角度的准确率,由此改善结果。
proposal),然后将其分类成不同的目标类别,所以这也被称为「基于区域的方法」。这类模型主要包括 R-CNN [22]、Fast
R-CNN [23]、Faster R-CNN [24]、基于区域的全卷积网络(R-FCN)等。
MultiBox [26]、YOLO [27]、单次多框检测器(SSD)[28]。相比于第一类框架,这种框架通常结构更简单,检测速度也更快。
图像包含充足的语义信息,因此非常适合目标检测。图 2 展示了一个使用 2D 图像检测目标的示例。3D-GCK [29] 等方法仅使用单目
RGB 图像就能实现实时的汽车检测:它首先预测 2D 边界框,然后使用神经网络来估计缺失的深度信息,将 2D 边界框提升到 3D 空间。

3D 数据非常复杂,所以往往计算成本较高。第二种方法则是将点云处理成二维数据,这可以降低计算量,但不可避免地会丢失原始数据的一些特征。图 3
给出了一个使用 3D 激光雷达点云数据执行检测的例子。

[31] 提出从多个 2D 角度表示 3D 点云。在其数据预处理阶段,通过取点云图像的中心作为原点,并通过旋转固定的弧度角来截取 64
张不同角度的点云图像。这种方法能在一定程度上减少信息损失,因为其中加入了额外的旋转,并在分类阶段使用了许多实例。[32]
等研究则是将点云投射到一个圆柱面上,以尽可能多地保留信息。
[33] 是基于目标检测框架 BirdNet [34] 的改进版。BirdNet+ 为基于激光雷达数据的 3D
目标检测提供了一种端到端的解决方案。它用到了鸟瞰视角表征,这是从激光雷达点云转换而来的带有三个通道的 2D 结构,依赖于一个两阶段架构来获取面向
3D 的边界框。
PointNets [36] 同时使用 RGB 图像和激光雷达点云数据来执行 3D 目标检测。该算法使用成熟的 2D
目标检测器来缩小搜索空间。它是通过从图像检测器得到的 2D 边界框来提取 3D 边界视锥,然后再在经过 3D 视锥修整过的 3D 空间中执行
3D 目标实例分割。
[37] 也同时使用 RGB 图像和激光雷达点云数据作为输入,它是将 3D
点云投影成鸟瞰图和正视图。鸟瞰图表征是通过高度、强度和密度编码的,而正视图则是将点云投影到一个圆柱面上生成的。鸟瞰图可用于生成 3D
先验边界框,然后将该 3D 先验边界框投影到前视图和图像上,这三个输入生成一个特征图。该方法采用 ROI
池化来将三个特征图整合到同一个维度。整合后的数据再在网络上进行融合,然后输出分类结果和边界框。

评论
