1.2.1 智能体相关概念

从最广义的概念上说,人工智能指的应该是所谓的通用人工智能(Artificial General Intelligence, AGI),其定义是一个人造的智能体(Intelligent Agent),这个主体能够感知周围的环境,并且能够对周围环境做出一定的响应,从而能够完成人类为其设定的目标。这个概念就和强化学习算法的一些基础思想非常接近,因此强化学习也在现阶段的研究中被视为最接近通用人工智能的方法之一。所谓强化学习(Reinforcement Learning, RL),就是给定一个学习环境(Environment)和智能体(Agent),通过调节智能体在环境中活动的策略,让智能体在活动中获取奖励(Reward),并且让智能体获得奖励最大化的过程。智能体的整个训练过程可以通过图1.2来表示。

图1.2 强化学习决策过程

在图1.2中,智能体在t时刻有一个状态(State)st,它执行了一个动作(Action)at,并获取了环境的反馈,即所谓的奖励(Reward)rt,同时智能体将自身的状态更新到st+1。在这个过程中,我们称智能体执行动作所基于的依据为策略(Policy)π,一般来说,强化学习的策略应尽可能让智能体能够获得的奖励期望最高。注意到以上的概念都为实际问题的抽象,这里举一个直观的例子来阐述这些抽象的概念。假如有一个智能扫地机器人负责室内清扫,用上面的术语进行叙述,智能扫地机器人可以看作智能体,智能体在t时刻的状态可以(粗略地)认为是扫地机器人所处的位置和周围的情况(这里假设机器人只能感知周边的一小片区域),扫地机器人在t时刻的动作有两种,第一种是移动到周围的另外一个区域,第二种是打扫。当打扫的区域从脏的状态变成干净状态的时候,我们让扫地机器人获取一定的奖励。同时,扫地机器人会根据原来的动作,决定是否停留在原来的位置(当上一步做出打扫这个动作时),或者移动到一个新的位置(当上一步做出移动这个动作时)。扫地机器人的策略是在给定的行动步数条件下尽可能多地清洁脏的区域。

这里需要注意两点,第一点是智能体和环境其实是密不可分的。以扫地机器人为例,按照我们的叙述框架,扫地机器人不断改变状态并且获得奖励,周围的环境发生清洁,其实决定扫地机器人状态的不只是它本身,还有周围的环境。这是因为只有在环境的某个位置为脏的情况下,扫地机器人移动到这个位置才有可能获得奖励。同时,智能体获取奖励也不是只由环境决定,比如,在这个例子里扫地机器人可能安装了传感器,由传感器对环境的探测来决定是否得到奖励,于是这个奖励是智能体(也就是带有传感器的机器人)加上环境共同赋予的。因此,在研究实际问题的时候不应该把智能体和环境简单地切割开来,需要认为这两个相互作用,共同决定了状态和奖励。第二点是智能体和环境有可能处在外界的不断干扰中,也就是说,环境会随着时间不断发生变化。举例来说,室内的环境可能会发生变化,一块区域经过一段时间后由于某种原因变脏,智能体在行进路线上也可能会碰到不同的障碍物,而且障碍物可能会被人为移动。这些都是变化的因素,在构造强化学习算法的时候也需要对这些因素做一定的考量。