叶杰平:主流强化学习过分简化假设,与真实场景差距较大
大数据文摘
共 2852字,需浏览 6分钟
·
2021-05-19 22:52
决策智能是国家新一代人工智能的重要发展方向,强化学习是实现决策智能的核心技术之一。在强化学习中,智能体与环境进行不断的交互,基于环境的反馈学习如何选择一系列动作,以使长期累积的奖励和最大。
近年来,该方向已经取得了一系列瞩目的进展,比如工业控制中的电网控制与数据中心冷却、电子竞技游戏中的OpenAI Five与AlphaStar、棋类游戏中的AlphaZero与MuZero等。
对此,贝壳找房副总裁、首席科学家,智源研究员叶杰平从问题建模、算法设计两个层面分别介绍强化学习与智能决策亟待解决的挑战和前沿进展。
问题建模
问题建模
算法设计
算法设计
评论