强化学习的基本要素如下:
1、环境状态:即Environment所描述对象的情况。由于强化学习本身的设计,其状态可认为是离散的,或者简单来说,就是一步一步的。具体的取值,取决于你的采样方式,更取决于你设计的算法本身的需求。
2、Agent的动作:这个取值也完全取决于你的需求与设计。请大家务必记住这个序列,它是强化学习概念的基础,贯穿强化学习始终。
3、环境奖励:即Agent的动作带来的实时收益,这个收益本身也取决于环境的设计。一般情况下,这个收益每一步都有。但是,有时很难对每一步设计具体收益,所以有可能会在最后设计一个总收益,而其他步上都是0。