【伯克利博士论文】零样本机器人感知的视觉-语言表示
共 2370字,需浏览 5分钟
·
2024-05-18 17:04
来源:专知 本文约2000字,建议阅读5分钟
随着机器人系统进入现实世界,创建能够适应真实世界的机器人感知系统的挑战仍然存在。
现实世界包含视觉和语义上多样化的环境,这些环境中充满了更加多样化的物体。我们可以利用大型视觉-语言模型(VLMs)来应对这种多样性,这些模型最近在捕捉现实世界规模的语义方面显示出了前景,因为它们是在互联网规模的数据上预训练的。我们希望依赖这些VLMs而无需进行额外的环境特定数据收集,因为这对许多机器人领域来说可能是昂贵的。因此,我们寻求将VLMs整合到机器人感知流程中,以便在不同任务中开箱即用或零样本使用。我们引入了两种利用VLMs进行零样本机器人任务的方法,分别用于遮挡物体搜索和抓取,即语义机械搜索(SMS)和面向任务抓取的语言嵌入辐射场(LERF-TOGO)。SMS除了使用VLMs外,还利用LLMs来更好地在搜索时语义上推理视觉遮挡的物体。通过将语义理解嵌入搜索过程,SMS提高了在模拟和现实世界环境中定位物体的效率。另一方面,LERF-TOGO创建了一个从VLMs派生的3D视觉-语言场,用于根据自然语言输入执行精确的物体部分抓取。这种方法在物理试验中显示出高准确性和适应性,有效地抓取了各种物体上指定的部分。我们最后总结了这两项工作的局限性和可能的未来发展方向。
评论