3.1.2 多臂赌博机(Multi-armed Bandit)

如同2.2节中介绍的一样,多臂赌博机是这样一个强化学习环境。在这个强化学习环境中有N个摇杆,对应智能体的决策过程是选择这N个摇杆中的一个,这个强化学习环境会根据摇杆预设的期望和方差(每个摇杆对应一个具体的期望和方差,对于智能体来说,这两个参数是未知的),从服从对应期望和方差的正态分布中采样,得到一个具体的值返回作为智能体获得的奖励。对于智能体来说,对应的状态是选择的摇杆,改变状态即为改变选择的摇杆,智能体对应的动作即为选择一个新的摇杆。

多臂赌博机这个强化学习环境的意义在于,每次返回的奖励值都是随机的值。因此,有可能智能体在用贪心策略做决策选择一个新的摇杆时会碰到期望比较低,但是碰巧在上一步(或者上几步)生成的奖励比较大的状态,这时智能体就可能被困在这个状态上,从而无法获取更大的奖励。这个强化学习环境和对应的算法是一个很好地阐述强化学习算法的探索和利用这两个对立方面的例子。