An Analysis of Temporal-Difference Learning with Function Approximation
An Analysis of Temporal-Difference Learning with Function Approximation
II. DEFINITION OF TEMPORAL-DIFFERENCE LEARNING
论文 在这一节中,我们精确地定义了时间差分学习的性质,并将其应用于infinite-horizon discounted马尔科夫链的成本–目标函数的近似。虽然该方法以及我们随后的结果适用于具有相当普遍的状态空间的马尔科夫链,但我们将注意力限制在状态空间是可数的情况下。这使我们能够使用相对简单的符号;例如,马尔科夫链可以用(无限的)转移概率矩阵来定义,而不是用转移概率核。扩展到一般状态空间的情况下,需要将矩阵符号转化为算子符号,但在其他方面是很简单的。
我们考虑一个 irreducible aperiodic马尔科夫链,其状态位于一个有限或可数的无限空间
An Analysis of Temporal-Difference Learning with Function Approximation最先出现在Python成神之路。
共有 0 条评论