【强化学习】Actor-critic演员评论家算法
Actor-critic演员评论家算法
演员评论家算法是一种结合了基于价值和基于策略的算法。
Actor:是策略函数。用策略梯度算法来实现。输入的是当前状态,输出的是一个动作。训练目标是最大化累计回报的期望。critic:是价值函数。用时序差分法(TD)算法来实现。对当前策略的值函数进行估计,也就是评价actor的好坏,并指导actor下一步的行为。 Actor 基于概率选行为, Critic 基于 Actor 的行为评判行为的得分, Actor 根据 Critic 的评分修改选行为的概率。
Actor-critic算法过程
策略梯度Policy Gradient
策略梯度算法利用reward奖励直接对选择行为的可能性进行增强和减弱,好的行为会被增加下一次被选中的概率,不好的行为会被减弱下次被选中的概率。
策略梯度的主要过程
先初始化一个策略网络θ 用这个策略网络进行N 次游戏,产生N个τ(
共有 0 条评论