【伯克利博士论文】零样本机器人感知的视觉-语言表示-技术圈

   
    
     
      
       
        
         来源：专知
        
       
      
     
    
   
   
    
     
      
       
        本文约2000字，建议阅读5分钟
        
         随着机器人系统进入现实世界，创建能够适应真实世界的机器人感知系统的挑战仍然存在。

现实世界包含视觉和语义上多样化的环境，这些环境中充满了更加多样化的物体。我们可以利用大型视觉-语言模型（VLMs）来应对这种多样性，这些模型最近在捕捉现实世界规模的语义方面显示出了前景，因为它们是在互联网规模的数据上预训练的。我们希望依赖这些VLMs而无需进行额外的环境特定数据收集，因为这对许多机器人领域来说可能是昂贵的。因此，我们寻求将VLMs整合到机器人感知流程中，以便在不同任务中开箱即用或零样本使用。我们引入了两种利用VLMs进行零样本机器人任务的方法，分别用于遮挡物体搜索和抓取，即语义机械搜索（SMS）和面向任务抓取的语言嵌入辐射场（LERF-TOGO）。SMS除了使用VLMs外，还利用LLMs来更好地在搜索时语义上推理视觉遮挡的物体。通过将语义理解嵌入搜索过程，SMS提高了在模拟和现实世界环境中定位物体的效率。另一方面，LERF-TOGO创建了一个从VLMs派生的3D视觉-语言场，用于根据自然语言输入执行精确的物体部分抓取。这种方法在物理试验中显示出高准确性和适应性，有效地抓取了各种物体上指定的部分。我们最后总结了这两项工作的局限性和可能的未来发展方向。

机器人的梦想是拥有一种通用机器人，能够像人类一样完成一系列任务。然而，这种类型的机器人的前提是一个健壮的感知系统，能够应对现实世界的多样性。开发这种感知系统是一个挑战。即使仅限于单一的机器人任务，机器人也必须与视觉和语义上不同的环境和物体进行交互，其中许多物体不常见，因此系统较不可能已经见过（即长尾）。最近在大型视觉-语言模型（VLMs和LLMs）上的进展显示出处理现实世界多样性的希望，因为它们是在互联网规模的数据上预训练的，这些数据经验性地捕捉到了语义的多样分布，更重要的是分布的尾部（即稀有实例）。大量先前的工作表明，这些模型可以提供良好的视觉表征[1]-[5]，将语言指令具体化[6]-[12]，并可作为开箱即用的规划器[13]-[18]。CLIP[19]是一个常用的界面，用于关联视觉和语言，许多工作[20]-[23]使用它来构建语义场景表征，并在物体查询和导航任务上表现出改善的性能。使用环境特定数据对这些模型进行微调可能非常昂贵，特别是在现实世界的机器人领域，因此目标应该是零样本地使用这些模型。因此，在这篇论文中，我们在现有工作的基础上进行了拓展，探讨了如何零样本使用VLMs为机器人任务创建有用的状态表征的问题，特别是遮挡物体搜索和抓取。

在第2章中，我们首先回顾了在机器人学中使用自然语言的现有工作。然后，我们深入探讨如何在3D状态表征中具体化自然语言，特别是对于下游机器人任务。最后，我们回顾了两项机器人任务的先前工作：遮挡物体搜索（即机械搜索）和面向任务的抓取。

在第3章中，我们讨论了语义机械搜索（SMS）[24]，它使用VLMs零样本来创建可以用于更好搜索遮挡物体的语义占用分布。在机器人学中，移动物体以寻找完全遮挡的目标物体，被称为机械搜索，是一个具有挑战性的问题。由于物体通常以语义方式组织，我们推测关于物体关系的语义信息可以促进机械搜索并减少搜索时间。VLMs和LLMs在概括不常见物体和以前未见过的现实世界环境方面显示出了希望。SMS通过使用LLMs进行场景理解并明确生成语义占用分布。与依赖CLIP嵌入提供的视觉相似性的方法相比，SMS利用了LLMs的深度推理能力。与使用VLMs和LLMs作为端到端规划器的先前工作不同，后者可能无法与专门的几何规划器很好地集成，SMS可以作为下游操纵或导航策略的插件语义模块。对于诸如货架之类的封闭世界环境中的机械搜索，我们与基于几何的规划器进行了比较，并表明SMS在模拟中和药店、厨房和办公室领域的机械搜索性能提高了24%，在物理实验中提高了47.1%。对于开放世界的真实环境，SMS可以产生比基于CLIP的方法更好的语义分布，有可能与更多下游搜索策略集成。

在第4章中，我们讨论了面向任务的零样本抓取的语言嵌入辐射场（LERF-TOGO）[25]，它使用VLMs零样本创建用于面向任务的抓取的3D表征。通过特定的子部件抓取物体通常对安全至关重要，也是执行下游任务的关键。LERF-TOGO根据自然语言查询输出一个物体上的抓取分布。为了实现这一点，我们首先构建了场景的LERF，将CLIP嵌入蒸馏成一个可通过文本查询的多尺度3D语言场。然而，LERF没有物体边界感，因此其相关性输出通常在一个物体上返回不完整的激活，这对抓取来说是不够的。LERF-TOGO通过提取DINO特征的3D物体遮罩来缓解这种空间分组的缺乏，然后有条件地查询这个遮罩上的LERF以获得物体上的语义分布，从而对来自现成抓取规划器的抓取进行排名。我们评估了LERF-TOGO在31个物理物体上抓取面向任务的物体部件的能力，并发现它在81%的试验中选择了正确部分的抓取，并在69%的试验中成功抓取。

在第5章中，我们总结了两种算法的限制，讨论了未来的工作