RL的分类:基于模型(Value-base/Policy-based)与不基于模型

共 1680字,需浏览 4分钟

 ·

2023-05-16 01:13


本文接前面文章:

  1. 入门强化学习所需掌握的基本概念





  2. MDP的前置知识:随机过程、马尔可夫过程、马尔可夫奖励




  3. 马尔可夫决策过程(MDP):马尔可夫奖励(MRP) + 智能体动作因素





  4. 动态规划法--通过动态规划法求解最优策略





  5. 蒙特卡洛法及时序差分法与DP、MC的区别







根据问题求解思路、方法的不同,我们可以将强化学习分为



d9bf47823db0361c55dd2a9c3276cbd8.webp



基于模型的强化学习(Model-based RL),可以简单的使用动态规划求解,任务可定义为预测和控制,预测的目的是评估当前策略的好坏,即求解状态价值函数
57d971e40a30d9022f01b458999ffce3.webp,控制的目的则是寻找最优策略
486cacc1dda325034c9a551bddba25b4.webp



在这里“模型”的含义是对环境进行建模,具体而言,是否已知其P和R,即
cf857d07577a7e34d547a4dd124f4c6d.webp取值



→ 如果有对环境的建模,那么智能体便可以在执行动作前得知状态转移的情况
e84a73847ecee85de84742863c17a3e8.webp即和奖励
fa1c23b6e11e11c7c825c741fa49ce46.webp,也就不需要实际执行动作收集这些数据;



 →否则便需要进行采样,通过与环境的交互得到下一步的状态和奖励,然后仅依靠采样得到的数据更新策略



无模型的强化学习(Model-free RL),又分为



基于价值的强化学习(Value-based RL),其会学习并贪婪的选择值最大的动作,即
43fb974e3b79ffc9a2aadf7cbd319a64.webp,最经典的便是off-policy模式的Q-learning和on-policy模式的SARSA,一般得到的是确定性策略,下文第三部分重点介绍



基于策略的强化学习(Policy-based RL),其对策略进行进行建模
2b9e50c5ad95e5f5c81881d39e1f236a.webp



并优化,一般得到的是随机性策略,下文第四部分会重点介绍



a425bd3b01f64b2e0853f4d2c00bc2cf.webp



















 
 小长假后,一起来充电跑赢下半年28226b4d6cd15da7d72dde8537919f1d.webp为助力更多小伙伴转型成功,升职加薪,七月在线集训营高级班限时钜惠;加满额赠课+所有集训营高级班课程

一次报名,答疑服务三年






41f74343672dcee190e5070113ad16d5.webp





学术/学业/职称论文,1V1辅导


现在需求也越来越旺,如果你有论文需求,别犹豫,七月在线论文保发;

国内外求职1V1辅导

也如火如荼进行中



a67bb12ce8a3c0f38272916189dfeed3.webp



有意找苏苏老师(VX:

julyedukefu008

 )或七月在线其他老师申请试听/了解课程




      





(扫码联系苏苏
老师





点击

阅读原文




了解课程




~


e69540d76ab582a9a734231b9f774f4d.webp
浏览 78
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报