强化学习丨n步时序差分算法(n-step Bootstrapping)及编程实践
目录
一、算法介绍
二、n步时序差分预测
2.1 算法介绍
2.2 算法应用
三、n步Sarsa
3.1 算法介绍
3.2 算法应用
四、n步离轨策略学习
4.1 算法介绍
4.2 带控制变量的每次决策型方法
4.3 n步树回溯
4.3.1 算法介绍
4.3.2 算法应用
五、总结
一、算法介绍
上篇文章对(单步)时序差分算法做了介绍:
强化学习丨时序差分算法TD(0)及相关编程仿真https://blog.csdn.net/qq_56937808/article/details/121439265?spm=1001.2014.3001.5501
现在我们已经知道,强化学习时序差分算法TD(0)综合了动态规划算法(DP)与蒙特卡洛方法(MC),解决了无模型先验知识条件下的MDP问题。
现在我们将思路打开,不妨将价值的预测估计进行泛化,即我们无需像MC算法一样只有观测完整个幕序列才对价值进行整体更新,也无需像TD(0)那样仅仅观测一步过程就利用下
共有 0 条评论