MIT小哥联合谷歌训练7个多任务机器人,9600个任务成功率高达89%!

新智元

共 2314字,需浏览 5分钟

 ·

2021-04-25 12:41



  新智元报道  

来源:google

编辑:LZY

【新智元导读】Google研究团队率先研发出了处理大规模任务的新型机器人,这些机器人竟然具有「学习世界」的能力。


随着任务数量的增加,使用当前计算方法来构建通用的日常机器人的成本变得过高,人们正在快速寻求一种解决办法。我们都希望通用机器人可以执行一系列复杂的任务,例如清洁,维护和交付等等。

 

但是,即使使用脱机强化学习(RL )来训练单个任务(例如清洁),也需要大量的工程设计、花费很长的时间,这看似是件不可能完成的事!

 

 上图为脱机和非脱机强化学习的演示动图

 

MT-Opt+Actionable Model= 脱机强化学习


但是经过科学家们的不断努力,机器人的发展遇到前所未有的机遇。

 

任职于google的几位优秀的计算机科学家,率先研发出了处理大规模任务的新型机器人。


德米特里·卡拉什尼科夫(Dmitry Kalashnikov)是这项研究的第一作者,年纪轻轻的他于2009年创立了AI Digit公司,2013年加入google,担任软件工程师一职长达7年多。



杰克·瓦利(Jake Varley)作为第二作者,本科毕业于麻省理工大学(MIT)计算机科学专业,2013年顺利成为哥伦比亚大学的博士生,一毕业就收到google抛来的橄榄枝,现在google任SWE一职已经3年了。



卡罗尔·豪斯曼(Karol Hausman)作为第三作者,是南加大计算机科学专业的博士生,也是2018年加入google,目前主要担任google机器人控制和google大脑实验室的科学家。



这项研究主要展示了机器人脱机强化学习(RL)的两个新进展,即MT-Opt(一种用于自动数据收集和多任务RL训练的系统)以及Actionable Models(可动模型),该模型利用获取的数据实现脱机学习的目标。

 


MT-Opt引入了可扩展的数据收集机制,该机制在真实的机器人上可以收集超过800,000个任务,相比以往很多多任务脱机学习的成功应用,其平均性能比基线提高了约3倍。

 

更神奇的是,它还可以使机器人在不到1天的时间内对新任务进行适应,接着快速掌握新任务。

 

即使在没有特定任务和奖励的情况下该机器人也可以进行学习,这不仅极大地增加了机器人可以执行的任务数量,并可以更有效地学习下游任务。

 

 

所以为了大规模地收集多样化的任务数据,他们创建了一个可扩展且直观的多任务检测器来指定任务,目的是为了要收集最终平衡结果的数据集。

 

具体步骤如下:

 

为了训练该系统,科学家们收集了9600个机器人数据(来自七个机器人连续57天的数据收集),并采用监督学习(supervised learning)的方式来训练多任务,甚至允许用户快速定义新任务及其奖励的设置。

 

首先当收集数据时,需要对各种现实因素进行监察和定期更新。(例如不同的光照条件,多变的背景环境以及机器人灵活的状态)。

 

其次,通过使用较为简单的任务解决方案,有效地引导机器人学习更复杂的任务,这样在针对不同任务时,可以同时使用多个机器人同时操作。

 

一旦形成针对性训练,每个任务的数据量和成功情节数便会随着时间增长。

 

为了进一步提高性能,科学家们还重点放在某些表现欠佳的任务上进行调试和训练,逐一突破!

 

成功率高达89%!

 

尽管这种数据收集策略可以有效地收集大量数据,但任务之间的成功率和数据量是不平衡的。

 

所以为了解决这个问题,他们命令机器人对每个成功或失败的任务进行标记。这一步骤之后再将已经达到均衡的任务发送到多任务RL训练管道。

 

好消息是,对于具有多数据的通用任务,MT-Opt的成功率是89%(QT-Opt的成功率是88%),罕见任务MT-Opt的平均成功率是50%。

 

使用可操作模型(Actionable Model)可以使机器人系统地学习大量的指示技能,例如物体抓握,容器放置和物体重新布置。

 

除此以外,该模型还能训练数据中看不到的物体和视觉目标,新的机器人具有「学习世界」的能力!

 

小结:


MT-Opt模型和可操作模型的结果都表明,真实的机器人可以学习许多不同的任务,并且这些模型有效地分摊了学习技能的成本。


这是迈向通用机器人学习系统很重要的一步,该系统可以进一步扩展到现实生活中,执行许多对人类有帮助的服务。

 

如果感兴趣的读者,可以具体参考这两篇论文:“ MT-Opt:大规模的连续多任务机器人强化学习”和“可行的模型:机器人技术的无监督离线强化学习”,网站上提供了很多有关MT-Opt的更多信息、视频和可行的模型。


参考资料:

https://ai.googleblog.com/2021/04/multi-task-robotic-reinforcement.html



AI家,新天地。西山新绿,新智元在等你!


【新智元高薪诚聘】主笔、高级编辑、商务总监、运营经理、实习生等岗位,欢迎投递简历至wangxin@aiera.com.cn (或微信: 13520015375)


办公地址:北京海淀中关村软件园3号楼1100


浏览 6
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报