强化学习感想

为什么用强化学习?
智能体的选择动作是根据以往的训练效果(奖惩函数),并结合当前的状态来决定;这便是强化学习的目的,挖掘状态和动作的隐蔽相关性。
如果状态和动作的相关性很明显的话,那么就不需要用强化学习来做了。
例如:在微电网的削峰填谷的场景下,任意时刻只要知道微电网当前缺电(状态),那么电动汽车就放电(动作);微电网当前电量剩余很多(状态),就给电动汽车充电(动作)。不考虑约束条件以及奖惩函数(结果)的话,这就属于相关性很明显。
但是需要考虑的是: 电动汽车在离开时,电池的电量需要达到车主的预期值。那么这时候就不能 根据上面这套简单的逻辑去执行动作了。
奖惩函数与约束条件怎么区分?
那为什么不能把 “电动汽车在离开时,电池的电量需要达到车主的预期值” 只作为约束条件呢?
因为约束条件指的是任意时间都需要满足的条件,而奖惩函数一般是经过一段时间得出才有意义,不一定每一时刻最优,追求的是整个过程结束之

强化学习感想最先出现在Python成神之路

版权声明:
作者:dingding
链接:https://www.techfm.club/p/4064.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>