机器视觉的背景意义及算法分类-技术圈

来自于点击下方卡片，关注“新机器视觉”公众号

视觉/图像重磅干货，第一时间送达

来源：夏至又一年

机器人视觉识别技术是移动机器人平台十分关键的技术，代表着机器人智能化、自动化及先进性的判定标准。基于机器视觉的三维物体目标的识别、检测与定位技术已经成功应用于众多工业领域中。

配合着机械臂平台，以其为基础的操作系统可以完成一系列繁重复杂的工作，大大解放了人类的双手，提高了工业生产效率。作为促成这一切成果基础的机器人视觉识别技术正在逐步建立、稳定发展并一步步走向成熟。近年来，随着机器人相关技术的快速发展，其依靠的平台也快速的更新换代。之前价格较为昂贵的3D工业相机、3D图像传感器、3D扫描仪渐渐得到普及，传感器的微型化、智能化、低功耗以及高效率带来的深度图像设备价格大幅下降，随之机器视觉识别技术也越发深入且成熟。

三维物体目标检测和识别、6D 位姿估计、机械臂运动规划控制、移动平台的线路规划与基于即时定位与地图构建 SLAM (Simultaneous Localization And Mapping) 的精确导航、三维物体检测抓取是移动机器人平台的核心关键技术，其精度直接影响着最后整个移动机器人控制系统的抓取成功率以及任务的完成度。3D 物体实时检测、三维目标识别、6D 位姿估计一直是机器人视觉领域的核心研究课题，最新的研究成果也广泛应用于工业信息化领域的方方面面。通过众多的传感器，例如激光扫描仪、深度摄像头、双目视觉传感即可获得三维物体的识别数据，以此为基础开展研究的计算机视觉方向领域也有着较为深入的发展。目前在机器人实时抓取策略算法主要存在两种大的分类，一种是以Linemod算法为代表的传统的图像处理算法，另一种则是最近几年开展研究的机器学习的方法。而这两大分类包含了目前主流的四种方法。

传统的图像处理算法：

1. 基于点对特征

2010年 Bertram Drost 等人提出了基于 Point Pair 特征的 PPF (Point Pair Feature) 算法。PPF 算法使用物体的全局模型描述，基于定向 Point Pair 特征，通过快速投票方案在本地匹配全局模型实现物体三维到二维搜索空间上的对应匹配识别，适用于快速监测点云较为稀疏或者缺乏表面纹理信息及局部曲率变化极小的物体。PPF算法在有噪声、部分遮挡情况下有较好的识别能力，然而其不能解决具有相似噪声背景下物体识别问题，而且并没有很好的利用物体的边缘信息。

2. 基于模板匹配

2011年 Stefan Hinterstoisser 等人提出针对 3D 刚性物体的实时检测与定位算法 LineMod 算法。其基本原理是通过提取物体各个方向的深度图像采集模型，采用彩色图像的梯度信息结合物体表面的法向特征作为模板匹配的依据，训练其方向梯度生成物体模板后与实际图像的各对应方向位置匹配推测匹配结果。最后利用 ICP 算法对检测结果进行位姿修正完成3D刚性物体的位置检测判断。虽然 LineMod 利用了物体的多种特征，很好的解决了多种类目标在简单场景下的物体识别，然而其在模板分类时只关注物体的边缘，导致其在稍复杂实时模板匹配时识别率大幅度下降。

2018年Tomas Hodan使用现有的数据集提出 BOP 算法，建立了新的模板分类基准。然而其只能识别单个场景下多类物体的识别，遇到同类物体较多以及重叠场景算法识别能力迅速下降。

3. 基于霍夫森林

2009年 Juergen Gall 等人提出了基于霍夫森林的目标检测算法，通过构建一个随机森林 (random forest) 从图像上提取图像块，在构建的随机森林中的每个决策树上进行判断处理并在霍夫空间中进行投票，图像密集块采样后输出霍夫图像完成对目标重心位置的投票。在该算法提出后基于 Hough Forest 算法的目标检测也有着深入的发展。

机器学习的方法：

2017年 Wadim Kehl 等人提出了基于 SSD 算法的三维物体 6D 位姿估计，通过将 2D 图像深度学习的思路与三维物体 RGBD 图像的特点，利用深度学习网络完成局部图像 2D 检测、特征图与预训练核卷积，并使用投影属性来解析深度网络推断的试点及平面内旋转分数以此构建 6D 位姿假设。

本文仅做学术分享，如有侵权，请联系删文。

—THE END—