1.1 智能决策

智能决策一直是人类关心的问题。运筹帷幄之中,决胜千里之外,智能决策是人类以及生物在演化过程中一直在学习和应用的技能。何为智能?为什么需要智能?在一个极其简单的环境下,个体能否展现出智能?因为环境的复杂性和不确定性,个体需要学习不同的智能策略来应对环境变化,从而获得生存机会。智能决策与复杂环境是分不开的,复杂环境会影响个体智能决策能力,而个体智能决策行为同样会影响环境复杂性,两者之间相互关联耦合并协同演化,共同构成了更加复杂和动态演化的复杂系统。如何在复杂环境中进行智能策略的学习,特别是在模拟的复杂环境下,如何训练智能体获得智能决策能力,是深度强化学习主要面对和需要解决的问题[1-4]

1.1.1 智能决策简介

2020年3月新型冠状病毒感染在全球暴发,改变了世界运转模式以及人类日常生活,复杂社会经济系统受到了巨大冲击。在新型冠状病毒感染等外生冲击影响下,各行各业复工复产问题、供应链问题等直接影响了各经济体在全球产业链、价值链中的地位,应该如何防御和应对风险?这一问题已引起专家学者的较大关注,如汪寿阳教授团队研究了新型冠状病毒感染对全球生产体系的冲击和中国产业链加速外移的风险[5]。在疫情防控中,如何有效权衡经济效益和防疫效果,可以抽象为优化问题,即通过智能决策算法对经济运行和人类生活行为进行合理优化和决策。

智能决策的主体包括居民、社区、政府、经济体以及联合国,在不同的时间和空间尺度上都面对着大量的决策问题。对学生个体而言,选择食堂是一个决策问题;对旅行者而言,规划旅游路线是一个决策问题;对政府而言,疫情防控措施是一个决策问题;对经济体而言,选择贸易合作伙伴是一个决策问题;对国际组织而言,协调国际关系、化解国际冲突是决策问题。作为人类命运共同体的组成部分,不同尺度上、不同空间上、不同时间上的每一次决策,都会影响人类命运共同体的未来发展。

1.1.2 复杂金融系统中的智能决策

在复杂金融系统中,个人投资者、机构投资者和监管部门共同构成了一个动态演化的复杂巨系统。2008年后,美国次贷危机引发的全球金融海啸促使科学家重新审视主流经济金融理论,提出了当前金融理论所面对的挑战。在极端金融事件的预警和预测方面,由于金融系统的非线性、动态性、随机性等复杂因素,如何有效地防范和预警风险,会直接影响全球金融经济系统的稳定和健康发展。基于智能算法进行风险预警和防控,具有重要意义和研究价值,也能给世界各个经济体的金融经济系统平稳运行提供一定保障。如何对动态演化市场环境进行动态监控,对市场环境状态进行建模分析,对系统性风险及其传染进行度量、识别、防控和预警,是深度强化学习能够有所作为的领域。

2008年,Nature杂志文章指出[6],传统理论无法预见当时的金融风险,需要在理论和方法上进行根本性的科学革命,新理论需要从实际数据出发来探寻市场规律,挖掘市场信息,从复杂市场结构中解构市场行为信息和个体行为规律。基于大数据的金融分析中,我们从海量高质量数据中挖掘市场的运行规律和多尺度特征,刻画和监控不同层次市场参与者的行为规律和演化特征。我们从微观到宏观、从个体到系统、从关联关系到因果关系、从理论到方法,进行多尺度、多层次、多角度的深度探索和挖掘,为金融经济系统的安全和稳定提供具有可操作性和实用性的研究方法和分析工具。深度强化学习方法融合了深度学习和强化学习,在智能识别和智能决策方面具有显著优势。深度学习模型适用于复杂经济金融系统中海量、多源、异构数据,强化学习模型适用于动态演化的复杂市场环境决策。

新的经济理论需要考虑异质经济人之间的相互作用[7],在此部分ABM模型和金融计算实验具有重要的应用价值。异质性个体之间的异质非线性相互作用构成了复杂性的来源,也使得复杂系统能够涌现更高层次的特征规律和功能表现,如市场对噪声的容错能力、对外在冲击的恢复能力等。如何构建异质性智能体之间的交互规则,使得系统能够更加鲁棒和稳定?我们可以将此问题建模成组合优化问题,融合深度强化学习进行智能决策和智能规划。在金融经济理论中存在着大量的序贯决策问题,深度强化学习是专门求解此类决策问题的智能学习方法。通过深入理解和学习深度强化学习,可以将一些看上去不是序贯决策问题且具有复杂实际应用背景的难题,建模成马尔可夫决策过程或者部分可观测的马尔可夫决策过程,随后运用深度强化学习算法进行训练和求解。

Schweitzer等人指出经济学研究应该着眼于子系统之间的相互作用,以及由此而形成的复杂金融经济网络[8]。复杂金融经济网络是复杂金融经济系统的有效表示,能够比较高效地抽取和模型化复杂系统中个体之间的交互关系和结构特征[9,10],其研究得到了大量科研人员关注[11,12]。深度强化学习系统需要对复杂巨系统和复杂系统中个体进行细致的表征,然后基于智能算法学习和度量特定问题的高层次特征,为智能决策提供更加有效的决策变量支持。复杂网络分析除了研究网络拓扑结构信息,也能够分析网络节点信息和网络连边信息以及全局网络特征信息。在深度图神经网络中,通过深度学习技术挖掘节点和连边信息以及网络拓扑结构特征,可为运用复杂网络分析相关问题提供额外的信息和研究思路。

金融市场是典型的复杂系统,复杂金融系统是一个由庞大数量、相互关联、互相影响的个体共同组成的系统,投资者行为能够决定宏观市场行为,从微观行为到宏观行为的跨越,是复杂系统研究人员希望理解和分析的关键问题。根据中国证券登记结算有限责任公司数据,截至2020年1月末,中国股市的投资者数量已经突破1.6亿人,其中包括了个人投资者和机构投资者。金融系统每天产生海量信息,包括投资者情绪、市场行情、交易行为和其他另类数据(Alternative Data)。复杂金融系统中海量、异构、多源的数据都是投资者的决策信息,但金融系统的复杂关联也导致了系统的脆弱性,在不可预知的风险和冲击面前,整个金融系统面临着巨大的崩塌风险。很多学者从微观层次上构建投资者交易网络[13],通过对微观交易网络进行结构和动力学分析,为建立金融观察平台提供了丰富模型基础。

图1.1是某只股票一年中交易者的股票买卖关系示意图,图中每个节点代表一个投资者,两个节点之间的连边对应两个投资者之间的股票买卖关系。通过k-shell算法进行分析和可视化[14],可以得到图中的层次结构,为了显示清晰度,图中只显示了交易网络中最里层的投资者网络关系结构。层次结构表明投资者之间关系错综复杂,如何从如此复杂的拓扑结构中解构出市场交易行为以及解构出能够表征市场系统性风险的特征信息,是研究人员面对的较大挑战,经典理论和方法的局限性显而易见[15],学者可以采取基于网络的建模方法[16-24],基于系统论的视角来分析和研究复杂金融问题。网络模型能够对复杂系统进行较为真实的刻画和系统分析,将个体信息不仅是当作独立的特征变量分析,而是充分考虑个体之间的关联结构,从复杂网络结构和功能的视角讨论系统稳定性和脆弱性。近年来,复杂网络科学家们贡献了大量的复杂网络分析方法和理论思想,使得复杂网络方法成为了理解、描述、量化、预测并控制经济金融系统的强大工具[8]。复杂网络分析将更多因素引入了系统分析之中,使得模型的维度变得异常之高,一般方法很难能够同时考虑这么多的因素,结合复杂网络和机器学习以及深度学习、深度强化学习来处理超高维数据,能够使分析结果更加具有合理性、可行性和实用性。

复杂金融经济系统的稳定性和脆弱性问题,都对世界居民的日常生活和经济发展产生直接影响,如何在如此复杂多变的环境下应对突发事件是人们亟需解决的问题。如今,社会经济系统是一个高度耦合、深度关联、多尺度、多层次的复杂巨系统,传统方法已经很难处理具有庞大系统、动态环境以及海量数据的问题,人们需要结合最先进的智能算法和最优秀的计算平台来构建最有效的工具以生成应对策略,用复杂性对抗复杂性,用复杂智能决策系统对抗复杂环境决策问题。自AlphaGo之后,深度强化学习一跃成为了热门的研究领域和极具前景的智能算法。在金融经济系统中,基于深度强化学习的智能投顾、智能资产管理、智能客服等都得到了大量的研究和应用。本书中大量的编程实践也采用了金融领域的智能交易和智能资产管理等应用实例,提供了入门深度强化学习理论和实践的基础案例,将理论和实践进行充分的融合和应用。

图1.1 股票买卖关系图