深度强化学习(3):策略学习篇
王树森老师《深度强化学习基础》学习笔记
三、策略学习(Policy-Based Reinforcement Learning)
用一个神经网络(policy network,策略网络)近似策略函数,用于控制Agent运动。
策略函数近似(Policy Function Approximation)
Policy Function
π
(
a
∣
s
)
/pi(a|s)
王树森老师《深度强化学习基础》学习笔记
三、策略学习(Policy-Based Reinforcement Learning)
用一个神经网络(policy network,策略网络)近似策略函数,用于控制Agent运动。
策略函数近似(Policy Function Approximation)
Policy Function
π
(
a
∣
s
)
/pi(a|s)
共有 0 条评论