Code as Policies自然语言代码生成系统-技术圈

Code as Policies自然语言代码生成系统

联合创作 · 2023-09-25 21:44

Code as Policies 是一种以机器人为中心的语言模型生成的程序在物理系统上执行的表述。CaP 扩展了 PaLM-SayCan，使语言模型能够通过通用 Python 代码的完整表达来完成更复杂的机器人任务。通过 CaP，Google 建议使用语言模型，通过少量的提示来直接编写机器人代码。实验证明，与直接学习机器人任务和输出自然语言动作相比，CaP 输出代码表现更好。CaP 允许单一系统执行各种复杂多样的机器人任务，而不需要特定的任务训练。

用于控制机器人的常见方法是用代码对其进行编程，以检测物体、移动执行器的排序命令和反馈回路来指定机器人应如何执行任务。但为每项新任务重新编程的可能很耗时，而且需要领域的专业知识。

如果当人们给出指令时，机器人可以自主地编写自己的代码与世界互动，那会怎样？事实证明，最新一代的语言模型，如PaLM，能够进行复杂的推理，而且还经过了数百万行代码的训练。考虑到自然语言指令，目前的语言模型不仅能高度熟练地编写通用代码，而且还能编写控制机器人动作的代码。当提供几个示例指令与相应的代码（通过上下文学习）配对时，语言模型可以接受新的指令，并自主地生成新的代码，重新组合 API 调用，合成新的功能，并表达反馈回路，在运行时合成新的行为。更广泛地说，这提出了一种将机器学习用于机器人的替代方法。

编辑分享