AI框架可根据图像和触觉数据预测对象的运动-技术圈

大数据文摘出品

来源：VB

编译：cccck

把触觉和视觉协同起来？？

是不是听上去有点不可思议，但是最近，三星、麦吉尔大学和约克大学的研究人员就提出，AI可以根据对对象初始状态的视觉和触觉测量来预测后续运动。

在论文中，他们写到，“先前的研究表明，由于未知的摩擦和几何特性以及相互作用表面的不确定压力分布，预测运动对象的轨迹具有挑战性”，“为实现目标，我们专注于学习经过预测的预测器，该预测器可以捕获运动轨迹中最有用和稳定的元素”。

论文链接：

https://arxiv.org/pdf/2101.04454.pdf

这种传感器被命名为See-Through-your-Skin，他们声称，该传感器可以捕获图像，同时提供详细的触觉测量。除此之外，他们还创建了一个名为“生成多模态感知”的框架，该框架会在可能时利用视觉和触觉数据来学习一种表示形式，该表示形式可以对有关对象姿态，形状和力的信息进行编码，并对对象动态进行预测。

为了预测物体在物理交互过程中的静止状态，研究人员还使用了所谓的静止状态预测以及动态场景中的动触觉数据集，其中包括在平面上自由下落，在倾斜平面上滑落并从静止中受到干扰的物体姿势。

研究人员表示，他们的方法能够高精度地预测物体静止形态的原始视觉和触觉测量值，并且这些预测与真实情况也有着很高的匹配度。

不仅如此，他们声称，该框架学会了视觉、触觉和3D姿势模式之间的映射，从而可以处理缺少的模态，例如当输入中没有触觉信息时，以及预测物体从传感器表面掉下来的实例，导致输出的图像是空的。

“如果将以前看不见的物体落入人的手，我们可以推断出该物体的类别并猜测其某些物理性质，但最直接的推断是该物体是否可以安全地放在我们的手掌中，或者需要调整我们对物体的把握以保持联系。”合著者写到。

“在实验中我们发现，利用两种模式可以预测物理场景中的物体运动：视觉信息捕获诸如3D形状和位置之类的物体属性，而触觉信息则提供了有关交互作用力以及由此产生的物体运动和接触的关键线索。”