Easy RL：强化学习教程：什么是强化学习

主机优惠 • 2022-04-01 20:13 • 好物分享

强化学习（reinforcement learning，RL）讨论的问题是智能体（agent）怎么在复杂、不确定的环境（environment）中最大化它能获得的奖励。如图1.1 所示，强化学习由两部分组成：智能体和环境。在强化学习过程中，智能体与环境一直在交互。智能体在环境中获取某个状态后，它会利用该状态输出一个动作（action），这个动作也称为决策（decision）。然后这个动作会在环境中被执行，环境会根据智能体采取的动作，输出下一个状态以及当前这个动作带来的奖励。智能体的目的就是尽可能多地从环境中获取奖励。

图1.1　强化学习示意[1]
1.1.1　强化学习与监督学习
我们可以把强化学习与监督学习做一个对比。以图片分类为例，如图1.2 所示，监督学习（supervised learning）假设我们有大量被标注的数据，比如汽车、飞机、椅子这些被标注的图片，这些图片都要满足独立同分布，即它们之间是没有关联关系的。假设我们训练一个分类器，比如神经网络。为了分辨输入的图片中是汽车还是飞机，在训练过程中，需要把正确的标签信息传递

Easy RL：强化学习教程：什么是强化学习最先出现在Python成神之路。

版权声明：
作者：主机优惠
链接：https://www.techfm.club/p/28449.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

tranform(2D)改变盒子的形态（位移，旋转，缩放）

< <上一篇

MyEclipse连接weblogic jdbc数据源之MySQL

下一篇>>

搜索内容

Easy RL：强化学习教程：什么是强化学习

取消回复

共有 0 条评论

Ads