前言

2016年，谷歌的DeepMind团队研究人员在顶级期刊Nature推出AlphaGo，震撼了全世界。AlphaGo是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军（2016年李世石）的人工智能程序，AlphaGo使强化学习重新焕发出蓬勃生机。结合深度学习，深度强化学习在各大计算机科学顶级会议和科技公司的研究成果频频给人们带来激动人心的应用，让人们对通用人工智能的未来极为憧憬。深度强化学习融合深度学习的感知智能和强化学习的决策智能，在复杂环境决策模型中具有显著优势。同时，也有很多人对深度强化学习的未来提出质疑。伴随着质疑和赞美，深度强化学习领域持续改进和迭代，将走得更远，走得更长，为人类社会带来更多有益的成果。

人类不满足于深度强化学习在棋类游戏或者特定领域的进步，希望深度强化学习在人类社会中也能为社会经济体系统风险（如金融危机、经济危机、社会冲突等）的识别、度量、预警、防控和处置提供新的思路和方案。围棋策略空间的复杂度已经超出了一般人的决策能力范围，但相较于社会经济系统，围棋博弈的状态空间毕竟还是可数的且有限的，而社会系统、金融系统等都是无穷维数的复杂巨系统，能够在人类社会经济系统中训练智能体完成一些任务，具有巨大的挑战性，其难度远远大于AlphaGo的设计和工程实践。

2008年，肇始于美国次贷危机的全球金融海啸促使科学家重新审视主流经济学和金融学理论。2008年10月，Bouchaud在Nature杂志上撰文指出，传统理论无法预见金融风暴的发生，需要在理论和方法上进行根本性的科学革命，新的理论需要从实际数据出发来探寻市场规律。金融风险的度量、表示、传染、防控、预警、预测等问题，可以通过合适的建模转换成深度强化学习能够解决的问题。危机发生后的应急处置和风险处置，也能够融合深度强化学习算法进行深度分析和讨论。同时，粮食和能源是当今世界金融经济系统中极为重要的交易对象，是各个国家的重要战略资源，是经济发展的重要基础，还是极为重要的军事、外交资源。全球粮食市场一直处于波动状态，经历了数次巨变，粮食价格大涨大落已成为常态。我们应该如何防御和应对这些难题？这些极具挑战的难题都可以建模成深度强化学习能够探索的问题，也需要深入地学习和探究。

深度强化学习领域的算法，浩如烟海，令人眼花缭乱。对于初学者而言，如何在有限的时间内掌握这一门复杂的学科及其问题分析方法，如何将自己遇到的科学问题和现实问题转换成深度强化学习能够解决的问题，是一个非常值得讨论和尝试的课题。

本书旨在提供深度强化学习原理和算法入门。不同于侧重代码实现和应用的书籍，本书期望能够让非计算机和数理相关专业的学生也可以从算法原理入门，将开源社区中优秀的深度强化学习算法代码库，结合自身领域内的特殊问题，构建自己的深度强化学习模型，解决一些棘手的经典或领域内传统算法不能解决的问题。在原理学习和编程实践的过程中，本书也提供了开源的示例代码，不需要过多的编程工作量，也能够运用强大的深度强化学习算法解决特定的专业问题。

本书内容安排

第1章介绍深度强化学习应用的潜在领域背景和需要解决的问题，包括复杂性科学和复杂系统的相关知识以及人工智能应用的背景。从复杂金融系统开始，讨论复杂金融环境下的新金融、互联网金融、计算金融、科技金融等。

第2章将从人工智能的历史讲起，简要介绍机器学习、深度学习、强化学习以及深度强化学习的基本发展情况，使读者在整体上对深度强化学习、机器学习、人工智能有大致的了解，为后续的深入分析和研究提供基础。另外，本章还简要介绍了基本的机器学习范畴知识，包括监督学习、无监督学习和强化学习，以及优化算法、激活函数、损失函数等基本概念和原理。深度强化学习是一项复杂的数据分析方法，扎实的人工智能和机器学习基础能使学习者更快地入门这一蓬勃发展的领域。

第3章简要介绍深度学习的基础模型，包括深度神经网络（Deep Neural Networks）、深度卷积神经网络（Convolutional Neural Networks）、深度循环神经网络（Recurrent Neural Networks）、深度图神经网络（Graph Neural Networks）。深度学习模型是深度强化学习模型框架中一个关键的模块，也是强化学习再次蓬勃发展的核心模块。深入理解深度学习模型，能够为深度强化学习模型的改进和策略优化提供强大的技术支持。该模块犹如汽车的发动机，通过更换发动机模块，能够得到汽车的不同性能。

第4章介绍经典的强化学习算法。强化学习是深度强化学习的算法基础，是入门深度强化学习的基础，介绍的算法包括时序差分算法、SARSA算法和Q-learning算法。理解了经典的强化学习算法，才能理解复杂的深度强化学习算法模型，深度强化学习算法在经典的强化学习模型基础上进行了大量的改进和性能提升。对强化学习理论和算法的深入理解，能够为智能交易系统的构建提供理论和技术支持。深度强化学习已经发展了非常多的高效算法，在不同领域取得了非常多的有效落地应用，但是基本都没有脱离强化学习理论中的在线学习、离线学习、基于模型的学习、模型无关学习、值学习和策略学习等框架。

第5章介绍Deep Q Network（DQN）。DQN基于Q-learning演化而来，Q-learning作为强化学习的核心算法，有着悠久的历史，在强化学习发展过程中发挥了重要的作用。Q-learning算法的核心是学习状态-动作值函数，基于状态-动作值函数在给定的状态下选择最优动作，做出最优决策，最大化累积奖励值。

第6章介绍随机性策略梯度算法，如置信阈策略优化（Trust Region Policy Optimization，TRPO）和近端策略优化（Proximal Policy Optimization，PPO）等。在连续高维空间中动作数量是无穷的，对于连续函数找最大值是一个需要耗费额外资源的问题，因此DQN对于连续型动作空间问题表现出了一定的限制，在动作空间为离散情况时DQN比较有效，拓展的DQN也能够对连续问题进行求解。随机性策略梯度算法直接学习策略函数，输出动作的概率值，保证了动作的随机性和多样性，在一些复杂环境中具有较好表现。

第7章介绍确定性策略梯度算法，如深度确定性策略梯度（Deep Deterministic Policy Gradient, DDPG）方法和双延迟DDPG（Twin Delayed DDPG, TD3）等。为了能够更好地处理连续动作空间的最优化策略问题，确定性策略梯度算法的策略函数直接输出动作值，通过确定性策略梯度定理更新和学习策略函数。

第8章介绍Actor-Critic算法，也就是“行动者-评论家算法”。行动者对应能够产生动作的策略函数，评论家对应能够评估动作好坏的值函数。深度强化学习的终极目标是通过学习获得一个策略函数，在与环境交互过程中做出最优化动作，获得最大的累计收益。本章将结合值函数和策略梯度，学习最优化策略函数。Actor-Critic算法提供了一个优秀的算法框架，DDPG等算法也同样包含了Actor-Critic算法框架。

第9章介绍深度强化学习与规划，主要涉及基于模型的深度强化学习算法。规划是指智能体并不实际与环境进行交互，而是通过构建一个环境模型，产生模拟数据，基于模拟数据完成对值函数和策略函数的更新和优化。在规划过程中，智能体必须对环境模型拥有完全的信息，能够完成虚拟的交互。例如围棋博弈中，对弈者不需要真正的落子也能够在脑海中模拟落子后对方的行动以及自己可采取的下一步行动。

第10章介绍深度强化学习算法的背景、历史、分类、挑战、前沿和其他应用实践，比如如何玩Atari视频游戏以及如何构建深度强化学习模型进行投资决策。

本书实践内容安排

本书对案例中所涉及的代码都提供了源代码和注释，希望读者能够在学习深度强化学习原理和算法过程中，通过一些简单的入门级的应用，提升对深度强化学习算法的理解。

第1章实践内容为熟悉复杂金融系统和金融科技背景知识，为后续智能交易系统构建提供基础知识；熟悉金融市场数据获取和数据预处理，能够获得金融市场决策变量。第2章实践内容为经典机器学习算法应用于时间序列和复杂网络分析之中，挖掘对应复杂系统演化规律。第3章实践内容为熟悉深度学习计算实验平台，了解深度学习相关经典模型的构建和训练过程，构建基础的深度学习模型，包括深度神经网络、深度卷积神经网络和深度循环神经网络，为深度强化学习打基础。第4章实践内容为构建金融市场马尔可夫决策环境，分析金融市场状态转换、状态特征提取、动作设定、回报函数等模块。第5∼8章实践内容为基于前几章中的深度神经网络模型和金融市场环境模型，运用DQN（第5章）、PPO（第6章）、DDPG（第7章）以及A2C（第8章）训练智能体进行智能投资决策。第9章实践内容为了解一些深度强化学习开源程序库。

本书适合人群

*金融学系本科生

*金融专业研究生

*计算机系本科生

*“计算机+金融学”双学位本科生

关于作者

谢文杰，男，湖南浏阳人，应用数学博士，上海市晨光学者。现任职华东理工大学商学院金融学系副教授、硕士研究生导师、金融物理研究中心成员，主要研究复杂金融网络、机器学习、深度强化学习、金融风险管理等。获2016年度上海市自然科学奖二等奖（4/5），主持完成4项国家或省部级科研项目。

周炜星，男，浙江诸暨人。教育部青年长江学者、上海领军人才、教育部新世纪优秀人才、上海市曙光学者、上海市青年科技启明星。现任职华东理工大学商学院、数学学院，二级教授，博士生导师，金融物理研究中心主任。现兼任中国优选法统筹法与经济数学研究会理事、风险管理分会副理事长，中国系统工程学会理事、金融系统工程专业委员会副主任，管理科学与工程学会理事、金融计量与风险管理分会副理事长，中国工业统计教学研究会金融科技与大数据技术分会副理事长，中国数量经济学会经济复杂性专业委员会副理事长，中国复杂性科学学会副理事长。现担任《计量经济学报》、Journal of International Financial Markets, Institutions & Money、Financial Innovation、Fractals、Frontiers in Physics、Fluctuation and Noise Letters、Entropy、Journal of Network Theory in Finance、Reports in Advances of Physical Sciences等国内外期刊的编委。主要从事金融物理学、经济物理学和社会经济系统复杂性研究，以及相关领域大数据分析。先后主持包括4项国家自然科学基金在内的10余项国家级和省部级项目。出版学术专著《金融物理学导论》1部，发表SCI/SSCI收录论文200余篇，他引7000余次，11篇论文入选ESI高被引论文，H指数46，连续8年进入爱思唯尔发布的中国高被引学者（数学）榜单。论文主要发表在JIFMIM、JEBO和QF等主流金融经济期刊及PNAS、Rep.Prog.Phys.等重要交叉学科期刊上。获2016年度上海市自然科学奖二等奖（1/5）。

致谢

本书模板来源于ElegantBook，感谢制作者的辛苦付出！感谢Open AI Baselines社区，感谢Stable-Baselines社区。感谢清华大学出版社编辑申美莹老师和相关工作人员。

本书参考文献与参考资料可扫描下方二维码获取。

谢文杰　周炜星

2023年8月