MIT小哥联合谷歌训练7个多任务机器人,9600个任务成功率高达89%!
Google研究团队率先研发出了处理大规模任务的新型机器人,这些机器人竟然具有「学习世界」的能力。
随着任务数量的增加,使用当前计算方法来构建通用的日常机器人的成本变得过高,人们正在快速寻求一种解决办法。我们都希望通用机器人可以执行一系列复杂的任务,例如清洁,维护和交付等等。
但是,即使使用脱机强化学习(RL )来训练单个任务(例如清洁),也需要大量的工程设计、花费很长的时间,这看似是件不可能完成的事!
上图为脱机和非脱机强化学习的演示动图
▍MT-Opt+Actionable Model= 脱机强化学习
但是经过科学家们的不断努力,机器人的发展遇到前所未有的机遇。
任职于google的几位优秀的计算机科学家,率先研发出了处理大规模任务的新型机器人。
德米特里·卡拉什尼科夫(Dmitry Kalashnikov)是这项研究的第一作者,年纪轻轻的他于2009年创立了AI Digit公司,2013年加入google,担任软件工程师一职长达7年多。
杰克·瓦利(Jake Varley)作为第二作者,本科毕业于麻省理工大学(MIT)计算机科学专业,2013年顺利成为哥伦比亚大学的博士生,一毕业就收到google抛来的橄榄枝,现在google任SWE一职已经3年了。
卡罗尔·豪斯曼(Karol Hausman)作为第三作者,是南加大计算机科学专业的博士生,也是2018年加入google,目前主要担任google机器人控制和google大脑实验室的科学家。
这项研究主要展示了机器人脱机强化学习(RL)的两个新进展,即MT-Opt(一种用于自动数据收集和多任务RL训练的系统)以及Actionable Models(可动模型),该模型利用获取的数据实现脱机学习的目标。
MT-Opt引入了可扩展的数据收集机制,该机制在真实的机器人上可以收集超过800,000个任务,相比以往很多多任务脱机学习的成功应用,其平均性能比基线提高了约3倍。
更神奇的是,它还可以使机器人在不到1天的时间内对新任务进行适应,接着快速掌握新任务。
即使在没有特定任务和奖励的情况下该机器人也可以进行学习,这不仅极大地增加了机器人可以执行的任务数量,并可以更有效地学习下游任务。
所以为了大规模地收集多样化的任务数据,他们创建了一个可扩展且直观的多任务检测器来指定任务,目的是为了要收集最终平衡结果的数据集。
具体步骤如下:
为了训练该系统,科学家们收集了9600个机器人数据(来自七个机器人连续57天的数据收集),并采用监督学习(supervised learning)的方式来训练多任务,甚至允许用户快速定义新任务及其奖励的设置。
首先当收集数据时,需要对各种现实因素进行监察和定期更新。(例如不同的光照条件,多变的背景环境以及机器人灵活的状态)。
其次,通过使用较为简单的任务解决方案,有效地引导机器人学习更复杂的任务,这样在针对不同任务时,可以同时使用多个机器人同时操作。
一旦形成针对性训练,每个任务的数据量和成功情节数便会随着时间增长。
为了进一步提高性能,科学家们还重点放在某些表现欠佳的任务上进行调试和训练,逐一突破!
▍成功率高达89%!
尽管这种数据收集策略可以有效地收集大量数据,但任务之间的成功率和数据量是不平衡的。
所以为了解决这个问题,他们命令机器人对每个成功或失败的任务进行标记。这一步骤之后再将已经达到均衡的任务发送到多任务RL训练管道。
好消息是,对于具有多数据的通用任务,MT-Opt的成功率是89%(QT-Opt的成功率是88%),罕见任务MT-Opt的平均成功率是50%。
使用可操作模型(Actionable Model)可以使机器人系统地学习大量的指示技能,例如物体抓握,容器放置和物体重新布置。
除此以外,该模型还能训练数据中看不到的物体和视觉目标,新的机器人具有「学习世界」的能力!
▍小结
MT-Opt模型和可操作模型的结果都表明,真实的机器人可以学习许多不同的任务,并且这些模型有效地分摊了学习技能的成本。
这是迈向通用机器人学习系统很重要的一步,该系统可以进一步扩展到现实生活中,执行许多对人类有帮助的服务。
如果感兴趣的读者,可以具体参考这两篇论文:“ MT-Opt:大规模的连续多任务机器人强化学习”和“可行的模型:机器人技术的无监督离线强化学习”,网站上提供了很多有关MT-Opt的更多信息、视频和可行的模型。
该文章内容转载自 新智元
End
声明:部分内容来源于网络,仅供读者学术交流之目的。文章版权归原作者所有。如有不妥,请联系删除。