深度强化学习(3):策略学习篇

王树森老师《深度强化学习基础》学习笔记
三、策略学习(Policy-Based Reinforcement Learning)
用一个神经网络(policy network,策略网络)近似策略函数,用于控制Agent运动。
策略函数近似(Policy Function Approximation)
Policy Function

π

(

a

s

)

/pi(a|s)

深度强化学习(3):策略学习篇最先出现在Python成神之路

版权声明:
作者:cc
链接:https://www.techfm.club/p/25243.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>