人类偏好的“可塑性”，从博弈说起-技术圈

大数据文摘出品

作者：斯图尔特·罗素

经济学家通过为人类受试者提供选择来套取他们的偏好。该技术广泛应用于产品设计、营销和交互式电子商务系统中。

例如，汽车设计师向受测试者提供具有不同油漆颜色、座位安排、后备厢大小、电池容量、杯架等选项的汽车，以此来了解人们关心哪些汽车功能，以及他们愿意为这些功能支付多少钱。

另一个重要应用是在医学领域，肿瘤学家在考虑截肢的可能性时，可能需要评估病人在行动能力和预期寿命之间的偏好。当然，披萨餐厅想知道人们愿意为香肠披萨支付的价格比普通披萨高多少。

如何寻找奖励信号优化复杂行为？

套取偏好通常只考虑在多个对象之间做出的单一选择，我们假设这些对象的价值对受试者而言是显而易见的。我们目前还不清楚如何将其拓展到对未来生活的偏好上。为此，我们（和机器）需要从长期的行为观察中学习，这涉及具有多种选择和不确定结果的行为。

1997年初，我和同事迈克尔·迪金森、鲍勃·弗尔讨论了我们如何应用机器学习的思想来理解动物的运动行为。迈克尔仔细研究了果蝇翅膀的运动。而鲍勃特别喜欢令人毛骨悚然的爬虫，他为蟑螂制作了一台小型跑步机，以便观察它们的步态如何随着速度的变化而变化。我们认为，利用强化学习来训练机器人或模拟昆虫，以此重现这些复杂的行为是可能的。我们面临的问题是，我们不知道使用什么奖励信号，不知道苍蝇和蟑螂在优化什么。没有这些信息，我们就无法应用强化学习来训练虚拟昆虫，所以我们陷入了困境。

一天，我从我们在伯克利的房子去当地超市。这条路有一个下坡，我注意到，这个斜坡使我走路的方式发生了轻微的变化，我相信大多数人都会这样。此外，几十年中发生的数次小地震造成了路面不平坦，所以走在上面的人会发生额外的步态变化，由于地面高度无法预测，我的脚抬得更高了一点，下落时也不那么生硬。

当我思考这些平凡的生活观察时，我意识到我们弄错了。当强化学习从奖励中产生行为时，我们实际上想要的恰恰相反：学习给定行为的奖励。我们已经有了由苍蝇和蟑螂产生的行为，我们想知道这种行为所优化的具体奖励信号。

换言之，我们需要逆强化学习算法（IRL）。（当时我还不知道，还有一个类似的问题曾被研究过，它被称为“马尔科夫决策过程的结构式估计方法”，这是诺贝尔奖得主汤姆·萨金特（Tom Sargent）在20世纪70年代末开创的一个领域。）这样的算法不仅可以解释动物的行为，还可以预测它们在新环境下的行为。

或许，理解逆强化学习算法的最简单方法是：观察者从对真实的奖励函数的一些模糊估计开始，然后随着观察到更多的行为而细化这个估计，使之更精确。或者，用贝叶斯的理论来解释：从可能的奖励函数的先验概率开始，然后随着证据的增加来更新奖励函数的概率分布。

如何让机器将人类行为转化为人类偏好？

逆强化学习如今已经是构建有效的人工智能系统的重要工具，但它做了一些简化的假设。

第一，机器人一旦通过观察人类学会了奖励函数，它就会采用奖励函数，这样它就可以执行相同的任务。这对驾驶汽车或驾驶直升机来说没问题，但对于喝咖啡不行：一个观察我早晨习惯的机器人应该知道我（有时）想喝咖啡，但不应该知道它自己想喝咖啡。解决这个问题很容易，我们只需确保机器人将偏好与人类联系起来，而不是与自身联系起来。

逆强化学习中的第二个简化假设是，机器人正在观察一个人类解决单智能体决策问题。例如，假设机器人在医学院，通过观察人类专家来学习成为外科医生。逆强化学习算法假设人类通常以最佳方式进行手术，就好像机器人不在那里一样。

但事实并非如此：人类外科医生的动机是让机器人（像其他医科学生一样）学得又快又好，这样她就会大大改变自己的行为。她可以边走边解释她在做什么；她可以指出需要避免的错误，比如切口太深或伤口缝合太紧；她可以描述万一手术中出现问题，应当采取什么应急方案。在单独进行手术时，这些行为都没有意义，因此逆强化学习算法将无法解释这些行为所暗示的偏好。

出于这个原因，我们需要将逆强化学习从单智能体设置发展到多智能体设置，也就是说，我们需要设计一种学习算法，当人和机器人是同一环境的一部分并且相互交互时，该算法必须发挥作用。

当一个人和一个机器人处于同一环境中的时候，我们就进入了博弈论的领域。在这个理论的第一个版本中，我们假设人类有偏好，并根据这些偏好行事。机器人不知道人类有什么偏好，但它无论如何都想满足他们。我们称这种情况为“辅助博弈”，因为根据定义，机器人应该对人类有所帮助。

辅助博弈实例化了我在《AI新生》中提到的三个原则：机器人的唯一目标是满足人类的偏好，它最初并不知道人类的偏好是什么，以及它可以通过观察人类的行为来学习更多。也许辅助博弈最有趣的特性是，通过解决博弈问题，机器人可以自己弄明白如何将人类行为转化为有关人类偏好的信息。

机器人罗比会梦见回形针吗？

辅助博弈的一个例子是回形针博弈。这是一个非常简单的游戏，在这个游戏中，人类哈里特有一种动机来向机器人罗比“发送”一些她的偏好信息。罗比能够解读这个信号，因为它能玩这个游戏，由此它能理解哈里特有什么样的偏好，以便让她发出那样的信号。

游戏的步骤如图12所示，涉及制作回形针和订书钉。哈里特的偏好是通过一个收益函数来表达的，该函数取决于生产的回形针和订书钉的数量，两者之间有一定的“汇率”。

例如，她可能会把回形针的价值定为45美分，将订书钉的价值定为55美分。（我们将假设这两个价值的总和始终为1.00美元，重要的只有比率。）因此，如果生产10个回形针和20个订书钉，哈里特的收益将是10×45美分+20×55美分=15.50美元。机器人罗比一开始完全不确定哈里特的偏好：他对回形针的价值有一个均匀分布（也就是说，价值有可能是从0美分到1.00美元的任何值）。哈里特先做了选择，她可以选择制作2个回形针，或2个订书钉，或每种各1 个。然后，罗比选择制作90个回形针，或90个订书钉，或每种各50个。

请注意，如果哈里特自己做这件事，做了2个订书钉，价值为1.10美元。但是罗比在看着，它从她的选择中学习。它到底学到了什么？这取决于哈里特如何做出选择。哈里特是如何做出选择的？这取决于罗比如何解释它。所以，我们似乎遇到了一个循环问题！这在博弈论问题中很典型，也是纳什提出纳什平衡的原因。

为了找到一个均衡的解决方案，我们需要为哈里特和罗比确定策略，假设任意一方的策略保持不变，则双方都没有改变自己策略的动机。哈里特的一个策略是，根据她的偏好，指定要做多少回形针和订书钉；罗比的一个策略是，根据哈里特的行动，指定要做多少回形针和订书钉。

事实证明，似乎只有一个均衡解。

• 哈里特根据她对回形针的估价做出如下决定：

如果价值低于44.6美分，我就制作0个回形针和2个订书钉；

如果价值在44.6-55.4美分之间，我就每种各制作1个；

如果价值大于55.4美分，我就制作2个回形针和0个订书钉。

• 罗比回应如下：

如果哈里特制作0个回形针和2个订书钉，我就制作90个订书钉；

如果哈里特每种各制作1个，我就每种各制作50个；

如果哈里特制作2个回形针和0个订书钉，我就只制作90个回形针。

通过这种策略，哈里特实际上是在用一种简单的代码（如果你喜欢，也可以说是一种语言）告诉罗比她的偏好，这种简单的代码是从均衡分析中产生的。就像外科医生教学的例子一样，单智能体逆强化学习算法无法理解这段代码。还要注意，罗比从来没有确切地了解哈里特的偏好，但是它学到了足够多的东西来代表她采取最佳行动，也就是说，它的行为就像确实知道哈里特的偏好一样。在陈述的假设下和哈里特在正确玩游戏的假设下，我们可以证明罗比对哈里特是有益的。

人们也可以构建问题，罗比会像一个好学生一样问问题，而哈里特会像一个好老师一样告诉罗比要避免的陷阱。之所以会出现这些行为，并不是因为我们编写了让罗比听从哈里特的脚本，而是因为这是哈里特和罗比参与的辅助博弈的最佳解决方案。

我们还有很多方法来完善模型或将模型嵌入复杂的决策问题中。然而我相信，核心理念——有益的、顺从的行为和机器对人类偏好的不确定性之间的重要联系，会经受住这些细化和复杂化的考验。

本文整理自《AI新生》斯图尔特·罗素著中信出版集团 2020.10

实习/全职编辑记者招聘ing

加入我们，亲身体验一家专业科技媒体采写的每个细节，在最有前景的行业，和一群遍布全球最优秀的人一起成长。坐标北京·清华东门，在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn

点「在看」的人都变好看了哦！