作者选取了Pick Up Cup(拿起杯子)、Take Lid Off Saucepan(打开锅盖)、Push Button(按下按钮)、Close Microwave(关闭微波炉)和Turn Tap(打开水龙头)五个常见的操作任务进行实验,下图展示了实验结果对比。 可以看出,从头开始对随机初始化的代理进行新任务训练会表现出较高的样本复杂度,在大多数的RLBench任务中,采用无监督探索的Plan2Explore方法明显超过了从头开始训练的性能,进而可以观察到,本文提出的LAMP方法的性能更好,作者分析认为,LAMP使用VLMs奖励进行预训练,可以使代理模型得到更加多样化的奖励,这样学习到的表征使其能够在微调期间快速适应到全新的任务上。
除了对语言提示进行研究之外,作者还对预训练阶段使用不同VLMs的效果进行了对比,这里作者选择了ZeST模型,ZeST大体上与CLIP模型的训练方式相同,也是通过提取文本特征与图像特征之间的相似度来作为奖励模型。 上图展示了LAMP使用R3M和ZeST在“Pick Up Cup”下游任务上的微调效果对比,其中R3M似乎能带来更好的持续性能,但ZeST预训练的性能也不差。由此作者得出结论,本文的方法本质上并不依赖于特定的VLM,未来可以更换更加强大的VLMs来进一步提高性能。
[1] Suraj Nair, Aravind Rajeswaran, Vikash Kumar, Chelsea Finn, and Abhinav Gupta. R3m: A universal visual representation for robot manipulation, 2022.
[2] Yi Wang, Kunchang Li, Yizhuo Li, Yinan He, Bingkun Huang, Zhiyu Zhao, Hon jie Zhang, Jilan Xu, Yi Liu, Zun Wang, Sen Xing, Guo Chen, Junting Pan, Jiashuo Yu, Yali Wang, Limin Wang, and Yu Qiao. Internvideo: General video foundation models via generative and discriminative learning, 2022.
[3] Yuchen Cui, Scott Niekum, Abhinav Gupta, Vikash Kumar, and Aravind Rajeswaran. Can foundation models perform zero-shot task specification for robot manipulation?, 2022.
[4] Ramanan Sekar, Oleh Rybkin, Kostas Daniilidis, Pieter Abbeel, Danijar Hafner, and Deepak Pathak. Planning to explore via self-supervised world models. CoRR, abs/2005.05960, 2020