强化学习丨n步时序差分算法(n-step Bootstrapping)及编程实践

目录
一、算法介绍
二、n步时序差分预测
2.1 算法介绍
2.2 算法应用
三、n步Sarsa
3.1 算法介绍
3.2 算法应用
四、n步离轨策略学习
4.1 算法介绍
4.2 带控制变量的每次决策型方法
4.3 n步树回溯
4.3.1 算法介绍
4.3.2 算法应用
五、总结

一、算法介绍
        上篇文章对(单步)时序差分算法做了介绍:
强化学习丨时序差分算法TD(0)及相关编程仿真https://blog.csdn.net/qq_56937808/article/details/121439265?spm=1001.2014.3001.5501       
        现在我们已经知道,强化学习时序差分算法TD(0)综合了动态规划算法(DP)与蒙特卡洛方法(MC),解决了无模型先验知识条件下的MDP问题。
        现在我们将思路打开,不妨将价值的预测估计进行泛化,即我们无需像MC算法一样只有观测完整个幕序列才对价值进行整体更新,也无需像TD(0)那样仅仅观测一步过程就利用下

强化学习丨n步时序差分算法(n-step Bootstrapping)及编程实践最先出现在Python成神之路

版权声明:
作者:感冒的梵高
链接:https://www.techfm.club/p/9930.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>