深度学习也会利用进化论！李飞飞谈创建具身智能体，学会动物进化法则-技术圈

新智元报道

来源：twitter

编辑：LRS

【新智元导读】今年早些时候斯坦福李飞飞教授等人的研究「深度进化强化学习」有了突破，首次证明了「鲍德温效应」。最近李飞飞带着研究团队做客Bio Eats World访谈，AI智能体也可以很快学会动物的这种智能行为，但目前推动具身认知面临很多挑战。

新冠疫情的爆发让我们感受到了生命是脆弱的，但也是强大的。如此神奇的生命究竟是怎么创造的，人类究竟能否再创造出具有智能的生命？

智能体/代理（Agents）是人工智能领域的一个主要研究课题，分为非具身智能和具身智能（embodied intelligence）。

今年2月，李飞飞和其他几名学者提出了一个新的计算框架——深度进化强化学习——Deep Evolutionary Reinforcement Learning (DERL)，基于该框架，具身智能体可以在多个复杂环境中执行多个任务。

6月，李飞飞的团队受Bio Eats World邀请，介绍不断发展的具身智能。

Bio eats world这个名字的意思是生物学正在吞噬世界。生物学正在脱离实验室和诊所，进入我们的日常生活。生物(我们对生命科学、医疗保健、技术和工业的交叉点的简称)如今正处于50年前计算机革命的边缘: 即将以我们才刚刚开始认识的方式彻底改变我们的世界。通过与顶尖科学家、建筑商、企业家和领导者的对话，主持人 Lauren Richardson (以及安德森·霍罗威茨的团队)探讨了生物将如何从根本上改变我们的未来。简而言之，生物正在吞噬世界。

本次演讲人包括Vijay Pande，李飞飞，Surya Ganguli和Lauren Richardson。

在节目中，完整地介绍了从理论和边缘哲学到应用哲学的全部内容。

具有具身智能的身体，或者说智能表现的物理形式，在塑造一个个体的思想和认知能力方面起着积极而重要的作用。例如，人类的智力不仅仅是我们大脑的功能，而是我们的大脑、我们的身体和我们生存的环境的组合。但是当涉及到人工智能(AI)的设计时，物理形式和环境通常不是等式的一部分。这是一种脱离实体的认知。

斯坦福大学人类中心人工智能研究所的李飞飞和Surya Ganguli，他们开发了一个被称作“进化游乐场”的环境，探索人工智能中具身智能的发展及其与环境的关系，以及在计算机实验中的学习应用。

他们与a16z 的普通合伙人 Vijay Pande 和主持人 Lauren Richardson 讨论他们如何创建一套虚拟环境，在其中智能体通过模仿达尔文进化论的方方面面进化。

这些智能体，被称为unimal，或者宇宙动物(universal animal)，开始时是一个中心节点，每一代都可以增加或减少四肢并改变它们的物理形式的各种属性，比如它们的关节有多灵活。就像在真实的进化中一样，不同的形式是根据环境的特殊性而产生的，但真正令人兴奋的是李飞飞、Surya 和同事们发现的关于智力编码在其中一些形式中的东西，比如学习一项新奇任务的能力的增强。

下图为环境中展示的unimal。

这就引出了节目中讨论的应用部分。这些结果为我们如何设计能够执行独特任务的机器人提供了新的见解，也为我们理解像 GTP-3这样的无实体人工智能模型可能存在的局限性提供了新的见解。

在李飞飞的论文中首次通过「形态学习」（morphological learning）证明了进化生物学中的「鲍德温效应」。

1953年，美国古生物学家George Gaylord Simpson创造了术语「鲍德温效应」，其中提到了美国哲学家和心理学家JM Baldwin的1896年论文中进化的一个新的因素。

在进化生物学中，鲍德温效应提出，在进化过程的早期世代一生中最初学会的行为将逐渐成为本能，甚至可能遗传给后代。

在过去的6亿年里，进化带来了无数形态的美：从古老的两侧对称的昆虫到各种各样的动物形态。

这些动物还表现出显著的具身智能，利用进化学习复杂的任务。

具身认知的研究人员认为，AI智能体可以很快地学会这种智能行为，而且它们的形态也能很好地适应环境。

然而，人工智能领域更注重「非具身认知」，如语言、视觉或游戏。

当AI智能体能够很好地适应环境时，它们就可以在各种复杂环境中学习控制性任务。然而，由于以下原因，创建这样的智能体非常具有挑战性。

这需要在大量潜在模式中进行搜索。通过终身学习评估一个智能体的适应性需要大量的计算时间。

因此，以往的研究要么是在极其有限的形态学搜索空间中使智能体实现进化，要么是在给定的人工设计形态学下寻找最优参数。

评估适应性的困难使得以前的研究避免了直接在原始感官观察的基础上学习自适应控制器;

学习使用少量参数(≤100)手动设计控制器; 学习预测一种形式的适应性;

模仿拉马克进化而不是达尔文进化，直接跨代传递学习的信息。

深度进化强化学习框架（DERL）可以在环境，形态和控制这三种复杂维度同时扩展创建具身智能体的规模。

DERL为计算机模拟实验中的大规模具身智能体创建活动打开了一扇门，这有助于获得有关学习和进化如何协作以在环境复杂性，形态智能和控制的可学习性之间建立复杂关系的科学见解。

此外，DERL还减少了强化学习的样本低效性的情况。智能体的创建不仅可以使用更少的数据，而且可以泛化和解决各种新任务。

DERL通过模仿达尔文进化论中错综复杂的代际进化过程来搜索形态空间，并通过终生神经学习的智能控制解决复杂任务来评估给定形态的速度和质量。

斯坦福大学教授，论文的作者李飞飞表示，「这项研究不仅提出了一种新的计算框架，即深度进化强化学习（DERL），而且通过形态学习首次证明了达尔文-鲍德温效应。形态学习对于自然界中的动物进化至关重，现已在我们创建的 AI 智能体中展现」。

在这项研究中创建的具身智能体可以平地（FT），多变地形（VT）和多变地形的非抓握操作（MVT）中执行巡视（patrol）、点导航（point navigation）、避障（obstacle）、探索（exploration）、逃脱（escape）、爬坡（incline）、斜坡推箱子（push box incline）和控球（manipulate ball）等任务。

为了学习，每个智能体仅通过接收低级自我感知和外部感受观察来感知世界，并通过由深度神经网络的参数确定的随机策略选择其动作。

该随机策略是通过近端的深度神经网络的参数策略优化（PPO）学习得到。

通常，DERL允许研究人员在1152个CPU上进行大规模实验，平均涉及10代进化，搜索和训练4000种形态，每种形式有500万智能体与环境的交互（即学习迭代）。