An Analysis of Temporal-Difference Learning with Function Approximation

ht • 2021-12-20 21:46 • 好物分享

An Analysis of Temporal-Difference Learning with Function Approximation
II. DEFINITION OF TEMPORAL-DIFFERENCE LEARNING
论文在这一节中，我们精确地定义了时间差分学习的性质，并将其应用于infinite-horizon discounted马尔科夫链的成本–目标函数的近似。虽然该方法以及我们随后的结果适用于具有相当普遍的状态空间的马尔科夫链，但我们将注意力限制在状态空间是可数的情况下。这使我们能够使用相对简单的符号；例如，马尔科夫链可以用（无限的）转移概率矩阵来定义，而不是用转移概率核。扩展到一般状态空间的情况下，需要将矩阵符号转化为算子符号，但在其他方面是很简单的。
我们考虑一个 irreducible aperiodic马尔科夫链，其状态位于一个有限或可数的无限空间

An Analysis of Temporal-Difference Learning with Function Approximation最先出现在Python成神之路。

版权声明：
作者：ht
链接：https://www.techfm.club/p/10179.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

view.getLocationOnScreen(location)和view.getLocationInWindow(location)的区别

< <上一篇

复习笔记（linux命令）

下一篇>>

搜索内容

An Analysis of Temporal-Difference Learning with Function Approximation

取消回复

共有 0 条评论

Ads