叶杰平：主流强化学习过分简化假设，与真实场景差距较大-技术圈

大数据文摘授权转载自智源社区

决策智能是国家新一代人工智能的重要发展方向，强化学习是实现决策智能的核心技术之一。在强化学习中，智能体与环境进行不断的交互，基于环境的反馈学习如何选择一系列动作，以使长期累积的奖励和最大。

近年来，该方向已经取得了一系列瞩目的进展，比如工业控制中的电网控制与数据中心冷却、电子竞技游戏中的OpenAI Five与AlphaStar、棋类游戏中的AlphaZero与MuZero等。

对此，贝壳找房副总裁、首席科学家，智源研究员叶杰平从问题建模、算法设计两个层面分别介绍强化学习与智能决策亟待解决的挑战和前沿进展。

叶杰平，贝壳找房副总裁、首席科学家，智源研究员，密西根大学教授，IEEE Fellow、ACM杰出科学家。叶杰平博士主要从事机器学习、数据挖掘和大数据分析领域的研究，致力于推进人工智能技术在出行、居住和医疗等领域的应用。他曾获得KDD和ICML最佳论文奖，荣获2010年美国国家自然科学基金会生涯奖、2017年中国计算机学会“CCF科学技术奖科技进步卓越奖”、2019年度国际运筹学领域顶级实践奖--瓦格纳运筹学杰出实践奖（Daniel H. Wagner Prize）。

叶杰平博士是2021智源大会强化学习与决策智能论坛的主席。本专题论坛将邀请国防科技大学智能科学技术系主任徐昕、美国密西根大学教授应雷、美国西北大学助理教授汪昭然、华为诺亚方舟决策推理实验室主任郝建业、滴滴AI Labs首席研究员秦志伟等知名嘉宾共同探讨相关领域面临的机遇和挑战。

作为一种新兴技术，当前强化学习与决策智能仍面临大量挑战。接下来我们将从问题建模和算法设计两个层面分别介绍强化学习与智能决策亟待解决的挑战和前沿进展。

问题建模

当前挑战：强化学习的奖励设计（描述学习目标）与状态定义（描述输入信号）不仅严重依赖于专家经验，且往往需要消耗大量人力反复调整建模方式。

首先，奖励函数的设计极具挑战性。奖励函数是描述智能体目标的特殊信号，对决策算法习得的策略有决定性的影响。以超级马里奥游戏为例，直接以“过关”作为奖励，则引导智能体学习的奖励信号会过于稀疏（一关仅一个奖励信号），进而导致算法的学习效率极低，甚至无法学到过关的策略。而综合考虑其他因素，如存活时间、击杀怪物得分，收集金币的数量等，需要进行大量的试错来平衡不同因素在奖励函数中的权重，以避免智能体出现无意义刷分的行为。

超级马里奥

其次，状态空间的定义仍需领域专家耗费大量精力进行多次尝试。真实环境中的输入信息存在多模态，高维度的特点，需要针对特定任务选择相应的信息和特征提取方法以定义策略学习所需的状态。

如在自动驾驶任务中，汽车的输入信号可以来自于摄像头、激光雷达、油量传感器、速度传感器、GPS信号等多种传感器。此外，行驶、停车入库，路线导航等不同的决策场景需要的信息存在差异。此时，为自动驾驶任务定义状态空间需要领域专家反复权衡不同决策场景的重要性、传感器成本、信息处理难度和策略学习难度等多种因素。

前沿进展：

1. 近年来，学界提出使用内在奖励（intrinsic reward）降低奖励函数设计时的人工成本。

内在奖励启发自心理学中的内在动机（intrinsic motivation）。举例来说，婴儿仅受内在好奇心的驱动便会积极探索房间的各个区域，无需父母给出特定形式的外部奖励。类似地，我们可以在决策算法中引入类似于“好奇心”的内在驱动力。此时，我们只需设计简单的稀疏奖励，便能引导智能体学习到有意义的策略。OpenAI 提出随机网络蒸馏，鼓励智能体探索具有较高不确定的状态。该方法是首个不依赖人类经验，在《蒙特祖玛的复仇》（雅达利游戏中最困难的稀疏奖励任务之一）中超过人类玩家平均水平的智能算法。

《蒙特祖玛的复仇》中的强化学习实践

2. 为降低设计状态空间的成本，研究者尝试融合表示学习与强化学习，自动地从原始输入中提取低维的状态特征。

具体地，可以选择廉价的传感器（如摄像头）获取原始输入，然后通过表示学习方法将高维的原始输入映射为低维的向量表示，同时保留原始状态中任务相关的语义信息。在机器人的仿真控制中，融合表示学习技术的决策算法可以在仅使用图像输入的情况下达到与使用多个不同传感器（获取关节速度与角度信息）时相当的性能。此外，针对视频游戏任务，David Ha与Juergen Schmidhube提出世界模型（World Models）。该方法以游戏图像作为输入，结合了自监督学习、循环神经网络等多项表示学习技术来提升智能体对环境的理解。

图灵奖得主Yann LeCun评价该方向是弥补强化学习不足与通向下一代人工智能的关键点。韩国科学技术院使用图神经网络学习能源网络的低维表示，进而使用强化学习方法学习能源网络的控制策略，获得了WCCI 2020电网调度大赛的冠军。

算法设计

当前挑战：主流的强化学习算法在设计时往往对环境和智能体进行了过分简化的假设，与真实场景下的落地应用仍有较大的距离。

其一，现有算法常常假设智能体可以获知全部环境信息（即完全可观测），但在国防安全、智能制造等落地场景中，智能体往往只能获取决策所需信息的一部分（即部分可观测）。

其二，现有算法主要考虑单一智能体或较小规模的多智能体系统。但是在物流调度、电网控制等重要决策任务中，存在庞大数量的智能体。值得一提的是，共享车辆调度任务作为强化学习方向最有潜力的落地场景之一（预计市场规模在2025年达到2180亿美元），需要同时考虑部分可观测性与庞大数量的智能体集群，对算法设计提出了更高的要求。

前沿进展：得益于大规模强化学习训练技术的发展，近年来在上述复杂场景下的强化学习算法已经取得了一系列令人瞩目的成就。

例如，在棋牌对弈领域，以AlphaZero、MuZero为代表的棋类游戏算法将深度强化学习与蒙特卡洛树搜索、自博弈等技术结合，战胜了围棋领域的人类世界冠军，实现了强化学习在双人博弈问题上的落地应用；在竞技游戏领域，AlphaStar在游戏《星际争霸》中克服了状态观测不完全、实时决策、稀疏奖励等诸多难点，OpenAI Five在游戏《Dota 2》中实现了多智能体场景下的协作和竞争，这些游戏算法应用大规模强化学习训练技术，达到了匹敌人类顶级职业选手的表现。针对共享车辆调度任务，滴滴提出了一种新的基于深度强化学习与半马尔科夫决策过程的智能派单方法，在同时考虑时间与空间的长期优化目标的基础上利用深度神经网络进行更准确有效的价值估计。通过系统的离线模拟实验以及在线的AB实验证明，这种基于深度强化学习的派单算法能够显著提升平台各项效率及用户体验。

点「在看」的人都变好看了哦！