RL的分类:基于模型(Value-base/Policy-based)与不基于模型

七月在线实验室

共 1680字,需浏览 4分钟

 ·

2023-05-16 01:13

本文接前面文章:
  1. 入门强化学习所需掌握的基本概念
  2. MDP的前置知识:随机过程、马尔可夫过程、马尔可夫奖励
  3. 马尔可夫决策过程(MDP):马尔可夫奖励(MRP) + 智能体动作因素

  4. 动态规划法--通过动态规划法求解最优策略

  5. 蒙特卡洛法及时序差分法与DP、MC的区别


根据问题求解思路、方法的不同,我们可以将强化学习分为

d9bf47823db0361c55dd2a9c3276cbd8.webp

基于模型的强化学习(Model-based RL),可以简单的使用动态规划求解,任务可定义为预测和控制,预测的目的是评估当前策略的好坏,即求解状态价值函数 57d971e40a30d9022f01b458999ffce3.webp,控制的目的则是寻找最优策略 486cacc1dda325034c9a551bddba25b4.webp

在这里“模型”的含义是对环境进行建模,具体而言,是否已知其P和R,即 cf857d07577a7e34d547a4dd124f4c6d.webp取值

→ 如果有对环境的建模,那么智能体便可以在执行动作前得知状态转移的情况 e84a73847ecee85de84742863c17a3e8.webp即和奖励 fa1c23b6e11e11c7c825c741fa49ce46.webp,也就不需要实际执行动作收集这些数据;

 →否则便需要进行采样,通过与环境的交互得到下一步的状态和奖励,然后仅依靠采样得到的数据更新策略

无模型的强化学习(Model-free RL),又分为

基于价值的强化学习(Value-based RL),其会学习并贪婪的选择值最大的动作,即 43fb974e3b79ffc9a2aadf7cbd319a64.webp,最经典的便是off-policy模式的Q-learning和on-policy模式的SARSA,一般得到的是确定性策略,下文第三部分重点介绍

基于策略的强化学习(Policy-based RL),其对策略进行进行建模 2b9e50c5ad95e5f5c81881d39e1f236a.webp

并优化,一般得到的是随机性策略,下文第四部分会重点介绍

a425bd3b01f64b2e0853f4d2c00bc2cf.webp







   小长假后,一起来充电跑赢下半年28226b4d6cd15da7d72dde8537919f1d.webp为助力更多小伙伴转型成功,升职加薪,七月在线集训营高级班限时钜惠;加满额赠课+所有集训营高级班课程 一次报名,答疑服务三年

41f74343672dcee190e5070113ad16d5.webp

学术/学业/职称论文,1V1辅导 现在需求也越来越旺,如果你有论文需求,别犹豫,七月在线论文保发; 国内外求职1V1辅导 也如火如荼进行中

a67bb12ce8a3c0f38272916189dfeed3.webp

有意找苏苏老师(VX: julyedukefu008  )或七月在线其他老师申请试听/了解课程

    

      

(扫码联系苏苏 老师

点击 阅读原文 了解课程 ~ e69540d76ab582a9a734231b9f774f4d.webp
浏览 34
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报