用于实现3D目标识别的新数据集

共 2614字,需浏览 6分钟

 ·

2020-10-29 15:04

点击上方小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达



         机器人技术,增强现实,自动驾驶-所有这些场景都依赖于从2D图像识别对象的3D属性。这使3D对象识别成为计算机视觉中的核心问题之一。
         在引入几个为2D对象提供3D注释的数据库(例如IKEA,Pascal3D +)之后,该领域取得了显著进展。但是,这些数据集的规模有限,仅包含大约十二种对象类别。这甚至与像ImageNet或Microsoft COCO之类的大规模图像数据集并不接近,而这些巨大的数据集却落后于近年来图像分类任务的重大进展。因此,具有3D批注的大规模数据集可能会极大地有益于3D对象识别。
        在本文中,我们介绍了一个大型数据集ObjectNet3D以及用于3D对象识别的几个专用数据集:MVTec ITODDT-LESS(用于行业设置)和Falling Things数据集(用于在机器人技术中进行对象识别任务)。

ObjectNet3D


图片数量: 90127
物件数量: 201888
类别数: 100
3D形状的数量: 44147
年份: 2016

来自ObjectNet3D的示例图像,其中2D对象与3D形状对应

        ObjectNet3D是一个大型数据库,其中图像中的对象与3D形状对应,并且这种对应为每个2D对象提供了准确的3D姿态注释和最接近的3D形状注释。该数据集的规模使得计算机视觉任务取得重大进展,例如从2D图像识别对象的3D姿势和3D形状。


3D形状检索的示例。绿色框表示选定的形状。下排说明了两种情况,在前5种形状中未找到相似的形状

        为了构建此数据库,斯坦福大学的研究人员诉诸于现有图像存储库中的图像,并提出了一种将3D形状(可从现有3D形状存储库中获得)与这些图像中的对象对应的方法。

在他们的工作中,研究人员仅考虑刚性对象类别,他们可以从网络中收集大量3D形状。以下是类别的完整列表:

ObjectNet3D中的对象类别

         从ImageNet数据集收集了2D图像,此外,通过Google图像搜索收集了ImageNet数据集未充分涵盖的类别。3D形状是从Trimble 3D Warehouse和ShapeNet存储库中获得的。然后,使用相机模型将图像中的对象与3D形状对应。最后,将3D注释提供给2D图像中的对象。所得数据集可用于对象提议生成,2D对象检测,联合2D检测和3D对象姿态估计以及基于图像的3D形状检索。


MVTec ITODD


场景数: 800
物件数量: 28
3D转换数量: 3500
年份: 2017

来自所有传感器的数据集的示例场景。第一行:灰度相机。下排:高质量(左)和低质量(右)3D传感器的Z和灰度图像

         MVTec ITODD是用于3D对象检测和姿态估计的数据集,重点关注工业设置和应用。它包含布置在800多个场景中的28个对象,并以其严格的3D变换标记为地面实况。场景由两个工业3D传感器和三个灰度相机进行观察,从而可以评估适用于3D,图像或组合形式的方法。MVTec Software GmbH的数据集创建者选择使用灰度相机,因为它们在工业设置中更为突出。

         如数据集描述中所述,选择对象时应使它们在表面反射率,对称性,复杂性,平面度,细节,紧密度和大小方面覆盖一系列不同的值。这是MVTec ITODD包含的所有对象的图像及其名称:


数据集中使用的28个对象的图像

         对于每个对象,只有一个实例的场景和有多个实例的场景(例如,模拟箱拣选)可用。每个场景使用每个3D传感器采集一次,每个灰度相机采集两次:一次带有随机投影图案,一次没有随机投影图案。

         最后,对于所有对象,都可以使用手动创建的CAD模型来训练检测方法。基于高质量3D传感器的3D数据,使用半手动方法标记了地面真相。

         该数据集为工业场景中3D对象的检测和姿态估计提供了很好的基准。


T-LESS


图片数量:每三个传感器会传回3900张训练图片+10000张测试图片

物体数量:30

年份:2017


T-LESS测试图像的数据示例(左),在地面真实6D姿势下(右)覆盖有彩色3D对象模型。同一对象的实例具有相同的颜色

         T-LESS是一个新的公共数据集,用于估计无纹理的刚性物体的6D姿势,即平移和旋转。该数据集包含30个与行业相关的对象,这些对象没有明显的纹理并且没有可辨别的颜色或反射率属性。该数据集的另一个独特属性是某些对象是其他对象的一部分。 T-LESS背后的研究人员已经选择了不同的方法来训练图像和测试图像。因此,该数据集中的训练图像在黑色背景下描绘了单个对象,而测试图像则来自二十个场景,且复杂程度不同。以下是训练和测试图像的示例:


上:训练图像和30个对象的3D模型。下:在地面真实姿势下用彩色3D对象模型覆盖的20个场景的测试图像

         所有的训练和测试图像都是通过三个同步传感器捕获的,其中包括结构化光和飞行时间RGB-D传感器以及高分辨率RGB相机。

         最后,为每个对象提供两种类型的3D模型:1)手动创建的CAD模型,以及2)半自动重建的模型。

         该数据集对于评估6D对象姿态估计,2D对象检测和分割,3D对象重建的方法非常有用。考虑到来自三个传感器的图像的可用性,对于给定的问题,也有可能研究不同输入方式的重要性。


Falling Things


图片数量:61500

物体数量:21个居家物品

年份:2018


FAT数据集的样本图像

         Falling Things数据集为加速研究对象检测和姿态估计以及分割,深度估计和传感器模态提供了绝佳机会。


写在最后


         3D对象识别具有多个重要应用,但是该领域的进展受到可用数据集的限制。幸运的是,近年来引入了几个新的3D对象识别数据集。尽管它们具有不同的规模,重点和特征,但是每个数据集都为改进当前3D对象识别系统做出了重要贡献。


浏览 143
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报