1.3.2 基于策略的（Policy-Based）和基于价值的（Value-Based）_深度强化学习算法与实践：基于PyTorch的实现-QQ阅读男生都市网

书名：深度强化学习算法与实践：基于PyTorch的实现
作者名：张校捷编著
本章字数：343字
更新时间：2024-10-30 04:45:01

1.3.2 基于策略的（Policy-Based）和基于价值的（Value-Based）

深度强化学习中的模型主要可以分为两类，第一类是基于策略的，第二类则是基于价值的。

在第一类模型中，通过使用神经网络对策略进行拟合，可以通过输入当前模型的状态，对智能体的下一步动作进行决策，通过使用神经网络输出的策略，并且使用策略梯度（Policy Gradient）对策略进行不断优化，可以让策略神经网络预测出最优的策略，最后让智能体通过采取这些策略来获取尽可能大的奖励，典型的算法如A3C算法。

在第二类模型中，主要拟合的是价值函数和动作-价值函数，通过估计不同的状态所处的价值，然后尽可能让智能体处于价值高的状态，这样就能获取最多的奖励，典型的算法如DQN算法。需要注意的是，有些网络可能综合了策略网络和机制网络的特点，典型的如SAC算法，会同时训练策略网络和价值网络，能够加快算法的收敛。