别再狂堆数据！ICRA'24 高通信息驱动机械臂抓取成功率提升10%！-技术圈

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

0.这篇文章干了啥？

这篇文章提出了一种名为IDA的方法，旨在促进机器人操作中的可供性发现。他们将这一问题视为情境性赌博问题，并提出了一种基于上下文的方法来解决。在这个方法中，机器人观察环境的当前状态，并选择执行一个动作，该动作可能会带来奖励。他们使用信息增益准则来衡量尝试不同动作所能获得的信息量，以便更好地学习可供性模型。为了在探索和利用之间取得平衡，他们结合了信息驱动的探索策略和环境奖励的预期收益，采用了上置信界限(UCB)策略来选择动作。他们还提出了一种基于自动编码器的模型架构，用于生成环境的视觉可供性图，并采用了轻量级集合来减少计算开销。最后，他们通过实验证明了他们方法的有效性，表明它在ManiSkill2中的几项任务中表现出色，并能够快速学习在现实世界中抓取物体。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：Information-driven Affordance Discovery for Efficient Robotic Manipulation

作者：Pietro Mazzaglia等

作者机构：Qualcomm AI Research

论文链接：https://arxiv.org/pdf/2405.03865

2. 摘要

机器人的可供性提供了关于在特定情况下可以采取的行动的信息，可以帮助机器人操作。然而，了解可供性需要昂贵的大型交互或演示注释数据集。在这项工作中，我们认为，与环境进行良好指导的互动可以缓解这个问题，并提出了一种基于信息的度量来增强Agent的目标并加速可供性发现过程。我们提供了我们方法的理论基础，并在模拟和现实世界的任务中对该方法进行了实证验证。我们的方法，我们称之为IDA，能够有效地发现几种动作原语的视觉可供性，如抓取、堆叠物体或打开抽屉，在模拟中极大地提高了数据效率，并允许我们在现实世界的UFACORY xArm 6机械臂上进行少量交互来学习抓取可供性。项目网站：mazpie.github.io/ida。

3. 效果展示

真实世界的结果和设置。IDA学习抓取物体的速度比其他方法更快，在UFACTORY xArm 6平台上实现了高达90%的抓取成功率。

真实世界的启示和信息地图。示能和信息图，显示所有可能的夹持器方向上每个像素的最高值。

4. 主要贡献

我们提出了一种信息驱动的度量方法，以增强交互式环境中代理的目标，用于视觉可供性发现，并基于信息理论提供了我们方法的动机;
我们在模拟中验证了IDA，在这里，代理迅速学会了抓取、堆叠物体和打开抽屉，明显优于以前在大型合成数据集上训练的方法。在这种情况下，我们还展示了良好基础探索的重要性，以合理提高性能，随着时间的推移，交互次数增加;
我们展示了IDA在实际机器人设置中的适用性，使用UFACORY xArm 6，我们的代理在少量交互中学会了抓取物体，而没有任何先验信息。

5. 基本原理是啥？

这篇文章的基本原理是使用信息驱动的方法来发现机器人操作中的可供性。作者将可供性发现问题视为情境性赌博问题，并提出了一种基于上下文的方法来解决这个问题。在这个方法中，机器人在每个时间步观察到环境的当前状态，并选择执行一个动作，该动作可能会带来奖励。他们使用信息增益准则来衡量尝试不同动作所能获得的信息量，以便更好地学习可供性模型。为了在探索和利用之间取得平衡，他们结合了信息驱动的探索策略和环境奖励的预期收益，采用了上置信界限(UCB)策略来选择动作。作者还提出了一种基于自动编码器的模型架构，用于生成环境的视觉可供性图，并采用了轻量级集合来减少计算开销。最后，他们通过实验验证了他们方法的有效性，表明它在ManiSkill2中的几项任务中表现出色，并能够快速学习在现实世界中抓取物体。

6. 实验结果

在实验部分，作者通过模拟和真实环境的实验验证了他们提出的基于信息驱动采样的可供性发现方法（IDA）的有效性：

模拟实验：

使用ManiSkill2基准测试环境进行模拟实验，记录场景的RGBD相机指向机器人和工作空间。
实验中的代理在训练过程中交替进行环境交互和更新可供性模型，每个交互大约需要100个模拟步骤。
评估表明，IDA和JSD方法在可供性成功率方面表现最好，显著优于其他基线方法，包括Where2Act、Greedy和Random。
对于最困难的任务，如Grasp EGAD（具有大量变化）和Open Drawer（更难的探索），IDA和JSD具有最大优势，证实了信息驱动的可供性发现可以实现更高的最终性能。

真实世界实验：

在真实世界中，使用UFAC TORY xArm 6和UFAC TORY夹爪进行了抓取任务的实验。
使用一组四个玩具物体，物体在训练和评估期间以顺序方式重复出现，并在每次抓取尝试之前随机放置在机器人手臂工作空间的随机位置和方向。
实验结果表明，IDA方法在真实世界中也取得了很好的效果，最终的抓取成功率达到了90%，远高于基线方法。

可视化：

为了提供关于IDA如何学习视觉可供性和随时间如何评估信息增益的额外见解，作者展示了IDA方法在学习在真实机器人手臂上抓取（保龄球瓶）时的可供性和信息图如何随时间演变。
观察到在训练初期（t = 29），可供性概率是均匀分布的。随后，信息图建议朝着物体边缘探索抓取点（t = 37，t = 139），最终导致代理学会，靠近边缘的区域更容易抓取（t = 242），因为它们具有较少的滑动表面。

7. 总结 & 未来工作

我们提出了IDA，这是一种促进机器人操作中可供性发现的方法。IDA在ManiSkill2的几个任务中表现出色，并且能够快速学习在现实世界中抓取物体。我们通过实证展示了有针对性的行动采样对于提高可供性成功率的重要性，并分析了我们方法的几个组成部分。我们测试的方法的一个局限是它依赖于运动规划来实现精确的可供性执行。虽然这有助于探索，特别是在学习的早期阶段，因为代理执行的动作更稳定可靠，但这个问题应该在未来的工作中加以解决，目标是提供更具适应性的策略，例如使用强化学习。我们还希望将我们的工作扩展到开发一个端到端系统，能够解决更长期的任务，可能在可能的可供性行动之上实例化一个分层控制器，或者使用大型语言模型来决定哪些可供性应该被执行以解决任务。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

▲长按扫码添加助理

3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括：星球视频课程近20门（价值超6000）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

▲长按扫码学习3D视觉精品课程

3D视觉相关硬件

图片	说明	名称
	硬件+源码+视频教程	精迅V1(科研级)）单目/双目3D结构光扫描仪
	硬件+源码+视频教程	深迅V13D线结构光三维扫描仪
	硬件+源码+视频教程	御风250无人机(基于PX4)
	硬件+源码	工坊智能ROS小车
	配套标定源码	高精度标定板(玻璃or大理石)
添加微信:cv3d007或者QYong2014 咨询更多

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~