【强化学习】Actor-critic演员评论家算法

Mr李 • 2022-02-10 22:46 • 好物分享

Actor-critic演员评论家算法
演员评论家算法是一种结合了基于价值和基于策略的算法。
Actor：是策略函数。用策略梯度算法来实现。输入的是当前状态，输出的是一个动作。训练目标是最大化累计回报的期望。critic：是价值函数。用时序差分法（TD）算法来实现。对当前策略的值函数进行估计，也就是评价actor的好坏，并指导actor下一步的行为。 Actor 基于概率选行为, Critic 基于 Actor 的行为评判行为的得分, Actor 根据 Critic 的评分修改选行为的概率。
Actor-critic算法过程

策略梯度Policy Gradient
策略梯度算法利用reward奖励直接对选择行为的可能性进行增强和减弱，好的行为会被增加下一次被选中的概率，不好的行为会被减弱下次被选中的概率。
策略梯度的主要过程
先初始化一个策略网络θ 用这个策略网络进行N 次游戏，产生N个τ（

【强化学习】Actor-critic演员评论家算法最先出现在Python成神之路。

版权声明：
作者：Mr李
链接：https://www.techfm.club/p/17702.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

Python入门–获取字典视图的三个方法#keys()–＞获取字典中所有key#values()–＞获取字典中的所有value#items()–＞获取字典中所有key-value对

< <上一篇

C++ qsort的理解

下一篇>>

搜索内容

【强化学习】Actor-critic演员评论家算法

取消回复

共有 0 条评论

Ads