2021 牛津大学：Recent Advances in Reinforcement Learning in Finance

可爱见见

发布于 2022-04-19 14:49:37

9180

发布于 2022-04-19 14:49:37

文章被收录于专栏：卡尼慕

Recent Advances in Reinforcement Learning in Finance

1 本文概述

本文是牛津大学2021年对 深度强化学习在金融领域内各种决策的应用 的综述文章。文章分为四个部分，第一部分是整体介绍；第二部分详细介绍了强化学习的基础知识，包括马尔科夫决策过程的定义、基于值的方法、基于策略的方法；第三部分介绍了深度强化学习的相关算法；最后一部分介绍了目前深度强化学习在金融领域里的最新应用。

2 文章详读

2.1 基本介绍

传统技术的弊端

处理许多财务决策问题的数学方法传统上是通过用 随机过程建模 和使用由 随机控制 产生的技术。模型的选择往往取决于需要平衡可处理性和适用性之间的关系。简单的模型导致可处理和可实现的封闭策略，或可以通过传统的数值方法找到。然而，这些模型有时过于简化了金融市场的机制和行为，这可能导致在实践中次优的策略，并可能导致财务损失。另一方面，试图捕捉金融市场现实特征的模型要复杂得多，而且使用随机最优控制的经典工具，往往在数学和计算上都难以处理。

强化学习

强化学习描述了在某些系统中起作用的代理可能通过与系统交互所获得的重复经验来学习做出最佳决策的方法。在金融业，RL 算法在订单执行、做市和投资组合优化等领域取得了许多成功，引起了广泛关注。这导致了在参与者对市场和其他竞争对手的信息有限时，在采用 RL 技术以改进各种金融市场的交易决策方面取得的快速进展。

2.2 DRL在金融领域的应用

2.2.1 电子市场与市场微观结构

Electronic Markets. 电子市场目前已成为各种金融资产交易的热门场，在加拿大、德国、以色列和英国在内的许多国家的证券交易所都采用了电子平台来交易股票。在美国，电子通信网络使用电子订单结构，在纳斯达克股市交易高达 45% 的交易量。同时在外汇领域，EBS 和路透社等电子系统主导着货币交易。瑞士-德国电子交易所 Eurex 目前是世界上最大的期货市场，而自 2000 年国际证券交易所开业以来，期权一直在电子市场进行交易。许多这样的电子市场被组织为电子限价订单簿。

Limit Order Books. 限价订单簿，是一个用来记录买卖双方对特定金融资产或工具的利益的订单清单。买方（卖方）可以提交两种类型的订单：一种是 【限价单】 给定数量的限额买（卖）订单，或者一种是 【市价单】 给定数量的市场买（卖）订单，将立即以最佳的限额卖（买）订单执行。因此，限价单有价格保证，但不能保证被执行，而市价单则立即以可用的最佳价格执行。所有卖出限价单的最低价格称为要价（ask price），所有买入限价指令的最高价格称为出价（bid price）。出价与要价之间的差额称为价差，竞价的平均值称为中价。

一个匹配引擎用于匹配传入的买卖订单。这通常遵循 价格-时间优先级规则，即订单根据其价格进行优先排序，然后，具有相同价格的多个订单将根据它们被输入的时间进行排序。如果传入订单的价格和时间相同，则首先执行较大的订单。匹配引擎使用 LOB 来存储在到达时无法执行的未决订单。

Over-the-counter Markets. 场外交易市场，直接在双方之间进行，无需交易所的监督。许多围绕交易商组织的场外交易市场，包括许多国家的公司债券市场，在过去十年里也经历了与电子化相关的动荡。电子化过程由多经销商到客户平台主导，使客户能够同时向多个经销商发送相同的报价请求(RFQ)，从而使经销商之间开始竞争。然后，这些经销商可以各自向客户提供交易价格（不一定是经销商流媒体的价格）。经销商知道客户的身份（这不同于围绕一个中央 LOB 组织的大多数系统）和所要求的经销商价格的数量。然而，他们并没有看到其他经销商所提供的价格。他们只看到一个基于一些最好的流媒体价格的综合价格。客户逐步收到 RFQ 的答案，并可以在任何时候与提出最佳价格或决定不交易的经销商进行交易。每个经销商都知道是否完成了交易（与她 / 他，但也与另一个经销商——但不知道这个经销商的身份）。如果发生了一笔交易，最好的经销商通常知道封面价格（在 RFQ 中第二好的出价价格）。我们建议读者向[69]更深入地讨论 MD2C 债券交易平台。

J.-D. Fermanian, O. Guéant, and A. Rachez, Agents’ Behavior on Multi-Dealer-to-Client Bond Trading Platforms, CREST, Center for Research in Economics and Statistics, 2015.

Market Participants. 当考虑不同的市场参与者时，有时根据其目标和交易策略对它们进行分类是有帮助的。主要分为以下三类：

•Fundamental (or noise or liquidity) traders：那些受交易所外经济基本面驱动的人；•Informed traders：利用预期升值或贬值的资产交易未反映在市场价格中的信息获利的交易员；•Market makers：从促进特定资产的交易中获利并利用其执行交易的技能的专业交易员。

所有这些交易者之间的互动的影响是市场微观结构领域研究的关键问题之一。如何从一类市场参与者的角度改进交易决策，同时与其他市场参与者进行战略性互动，是该领域的一大挑战之一。最近的文献已经看到了许多尝试利用 RL 技术来解决这些问题。

2.2.2 Optimal Execution (最优执行)

最优执行是财务建模中的一个基本问题。最简单的版本是交易员希望在指定的时间段内购买或出售特定数量的单一资产。交易员寻求的策略是最大化他们的回报，或者，尽量减少执行交易的成本。

传统策略：The Almgren–Chriss Model.

RL Approach.

在最优执行问题中使用的最流行的 RL 方法类型是 Q-learning 算法和 (double) DQN。

[1] D. Hendricks and D. Wilcox, A reinforcement learning extension to the Almgren-Chriss framework for optimal trade execution, in 2014 IEEE Conference on Computational Intelligence for Financial Engineering & Economics (CIFEr), IEEE, 2014, pp. 457–464. [2] B. Ning, F. H. T. Ling, and S. Jaimungal, Double deep Q-learning for optimal execution, arXiv preprint arXiv:1812.06600, (2018). [3] Z. Zhang, S. Zohren, and S. Roberts, Deep reinforcement learning for trading, The Journal of Financial Data Science, 2 (2020), pp. 25–40. [4] G. Jeong and H. Y. Kim, Improving fifinancial trading decisions using deep Q-learning: Predicting the number of shares, action strategies, and transfer learning, Expert Systems with Applications, 117 (2019), pp. 125–138. [5] K. Dabérius, E. Granat, and P. Karlsson, Deep execution-value and policy based reinforcement learning for trading and beating market benchmarks, Available at SSRN 3374766, (2019). [6] Y. Nevmyvaka, Y. Feng, and M. Kearns, Reinforcement learning for optimized trade execution, in Proceedings of the 23rd International Conference on Machine Learning, 2006, pp. 673–680. [7] Y. Shen, R. Huang, C. Yan, and K. Obermayer, Risk-averse reinforcement learning for algorithmic trading, in 2014 IEEE Conference on Computational Intelligence for Financial Engineering & Economics (CIFEr), IEEE, 2014, pp. 391–398.

基于策略的算法在这一领域也很流行，包括 (deep) policy gradient methods, A2C, PPO 和 DDPG。

[1] B. Hambly, R. Xu, and H. Yang, Policy gradient methods for the noisy linear quadratic regulator over a fifinite horizon, SIAM Journal on Control and Optimization, 59 (2021), pp. 3359–3391. [2] Z. Zhang, S. Zohren, and S. Roberts, Deep reinforcement learning for trading, The Journal of Financial Data Science, 2 (2020), pp. 25–40. [3] K. Dabérius, E. Granat, and P. Karlsson, Deep execution-value and policy based reinforcement learning for trading and beating market benchmarks, Available at SSRN 3374766, (2019). [4] S. Lin and P. A. Beling, An end-to-end optimal trade execution framework based on proximal policy optimization, in IJCAI, 2020, pp. 4548–4554. [5] Z. Ye, W. Deng, S. Zhou, Y. Xu, and J. Guan, Optimal trade execution based on deep deterministic policy gradient, in Database Systems for Advanced Applications, Springer International Publishing, 2020, pp. 638–654.

state variables 通常由时间戳、市场属性，包括资产的（中间）价格和/或价差、库存过程和过去的回报组成。

control variables 通常设置为在每个时间点进行交易的资产数量（使用市场订单）和/或相对价格水平（使用限制订单）。

reward signals 包括现金流入或流出（取决于我们是卖出还是购买）、实施缺口（Pnl）、利润、夏普比率、回报和 PnL。

performance measures包括实施不足、PnL（交易成本惩罚期限）、交易成本、利润、夏普比率、Sortino比率和回报。

为了比较基于价值的算法和基于策略的算法，在不同的市场环境下探索了 Double DQN 和 PPO 算法——当基准 TWAP 是最优的时，PPO 收敛于 TWAP，而 Double DQN 可能不会；当 TWAP 不是最优时，两种算法的性能都优于这个基准。在 50 个流动性期货合约的测试数据上，DQN、Policy Gradient 和 A2C 的表现优于包括经典时间序列动量策略在内的几个基线模型。在他们的工作中同时考虑了连续的和离散的动作空间。他们观察到，DQN 的性能最好，第二好的是 A2C 方法。

此外，基于模型的 RL 算法也被用于最优执行。[1] 建立了一个有利可图的电子交易代理，使用基于模型的 RL 进行买卖订单，它在 LOB 数据上的 PnL 方面优于两种基准策略。他们使用了一个递归神经网络来学习状态转移概率。同时，multi-agent RL 也被用于解决最优执行问题，例如：

[1] H. Wei, Y. Wang, L. Mangu, and K. Decker, Model-based reinforcement learning for predictions and control for limit order books, arXiv preprint arXiv:1910.03743, (2019). [2] W. Bao and X.-y. Liu, Multi-agent deep reinforcement learning for liquidation strategy analysis, arXiv preprint arXiv:1906.11046, (2019). [3] M. Karpe, J. Fang, Z. Ma, and C. Wang, Multi-agent reinforcement learning in a realistic limit order book market simulation, in Proceedings of the First ACM International Conference on AI in Finance, ICAIF ’20, 2020.

2.2.3 Portfolio Optimization (投资组合优化)

在投资组合优化问题中，交易员需要选择和交易最佳的资产组合，以最大化一些目标函数，这通常包括预期回报和一些风险度量。投资于此类投资组合的好处是，投资的多样化比只投资于单一资产更能获得更高的单位风险回报。

传统策略：Mean-Variance Portfolio Optimization.

RL Approach.

基于值的方法，例如使用 Q-learning，SARSA，DQN：

[1] X. Du, J. Zhai, and K. Lv, Algorithm trading using Q-learning and recurrent reinforcement learning, Positions, 1 (2016), p. 1. [2] P. C. Pendharkar and P. Cusatis, Trading fifinancial indices with reinforcement learning agents, Expert Systems with Applications, 103 (2018), pp. 1–13. [3] H. Park, M. K. Sim, and D. G. Choi, An intelligent fifinancial portfolio trading strategy using deep Q-learning, Expert Systems with Applications, 158 (2020), p. 113573.

基于策略的方法，例如 DPG，DDPG：

[1] Z. Xiong, X.-Y. Liu, S. Zhong, H. Yang, and A. Walid, Practical deep reinforcement learning approach for stock trading, arXiv preprint arXiv:1811.07522, (2018). [2] Z. Jiang, D. Xu, and J. Liang, A deep reinforcement learning framework for the fifinancial portfolio management problem*, arXiv preprint arXiv:1706.10059, (2017). [3] P. Yu, J. S. Lee, I. Kulyatin, Z. Shi, and S. Dasgupta, Model-based deep reinforcement learning for dynamic portfolio optimization, arXiv preprint arXiv:1901.08740, (2019). [4] Z. Liang, H. Chen, J. Zhu, K. Jiang, and Y. Li, Adversarial deep reinforcement learning in portfolio management, arXiv preprint arXiv:1808.09940, (2018). [5] A. M. Aboussalah, What is the value of the cross-sectional approach to deep reinforcement learning?, Available at SSRN, (2020).

state variables 通常为时间、资产价格、资产过去收益、当前持有的资产和余额。

control variables 通常为投资组合中的每个组成部分投资财富的数量或者比例。

reward signals 通常为投资组合回报、差分夏普比率和利润。

benchmark strategies 通常为：

1.Constantly Rebalanced Portfolio (CRP) ：在每个时期，投资组合被重新平衡到资产之间的初始财富分配；2.buy-and-hold or do-nothing：不采取任何行动，而是持有初始投资组合直到最后。

performance measures 通常为夏普比率、索提诺比率、投资组合回报、投资组合价值和累计利润。

2.2.4 Option Pricing and Hedging (期权定价和对冲)

了解如何为金融衍生品定价和对冲是现代数学和计算金融的基石，因为它在金融行业的及其重要。金融衍生物是一种从基础实体的表现中获得其价值的合同。例如，看涨期权或看跌期权是一种合同，它赋予持有人在到期日之前或之前以指定的执行价格购买或出售标的资产或工具的权利。期权类型的例子包括只能在到期时行使的欧洲期权，以及可以在期权到期前的任何时候行使的美国期权。

传统模型：The Black-Scholes Model.

RL Approach.

常用于寻找对冲策略和价格金融衍生品的 RL 方法有 DQN，PPO，DDPG。

[1] QLBS: Q-learner in the Black-Scholes (-Merton) worlds, The Journal of Derivatives, 28 (2020), pp. 99–122. [2] J. Du, M. Jin, P. N. Kolm, G. Ritter, Y. Wang, and B. Zhang, Deep reinforcement learning for option replication and hedging, The Journal of Financial Data Science, 2 (2020), pp. 44–57. [3] J. Cao, J. Chen, J. Hull, and Z. Poulos, Deep hedging of derivatives using reinforcement learning, The Journal of Financial Data Science, 3 (2021), pp. 10–27. [4] Y. Li, C. Szepesvari, and D. Schuurmans, Learning exercise policies for American options, in Artifificial Intelligence and Statistics, PMLR, 2009, pp. 352–359. [5] I. Halperin, The QLBS Q-learner goes NuQlear: Fitted Q iteration, inverse RL, and option portfolios, Quantitative Finance, 19 (2019), pp. 1543–1553.

state variables 通常包括资产价格、当前头寸、期权交易和剩余的到期时间。

control variable 通常是持股的变化。

reward signals 通常设为（风险调整后的）预期财富/回报（如均值-方差投资组合优化）、期权收益和（风险调整后的）对冲成本。

benchmarks 通常为 BSM模型和二项式期权定价模型。

performance measures 包括（预期）套期成本/误差/损失、PnL 和平均收益。一些实际问题已经考虑在 RL 模型，包括交易成本和头寸约束，如 lotting（一轮很多是一个标准数量的证券交易，如100股）和限制交易规模（例如购买或出售100股）。

2.2.5 Market Making (做市)

金融工具中的做市商是指个人交易员或机构，通过在限价订单簿中发出买入和卖出限价指令，同时赚取买卖价差。

做市的目标不同于最优执行（目标头寸）或投资组合优化（针对长期投资）的问题。做市商的目标不是从确定正确的价格变动方向中获利，而是从赚取买卖价差中获利。

一家做市商面临着的三个主要风险来源。

•库存风险是指累积不受欢迎的大量净库存的风险，显著增加市场波动而增加的波动性。•执行风险是指限制订单可能无法在预期的范围内被填满的风险。•不利选择风险是指价格有方向性的移动，通过市场标记提交的限价订单，使价格在交易期限结束时不会反弹。这可能会导致巨大的损失，因为做市商通常需要在交易结束时清理库存（通常是在一天结束时，以避免隔夜库存）。

O. Guéant, C.-A. Lehalle, and J. Fernandez-Tapia, Optimal portfolio liquidation with limit orders, SIAM Journal on Financial Mathematics, 3 (2012), pp. 740–764.

RL Approach.

大多数开发都围绕着基于价值的方法，如 Q-learning 和 SARSA。

[1] J. D. Abernethy and S. Kale, Adaptive market making via online learning, in NIPS, Citeseer, 2013, pp. 2058–2066. [2] T. Spooner, J. Fearnley, R. Savani, and A. Koukorinis, Market making via reinforcement learning*, in International Foundation for Autonomous Agents and Multiagent Systems, AAMAS ’18, 2018, pp. 434–442.

state variables 通常由买卖价格、当前持有的资产、订单流不平衡、波动性和一些复杂的市场指数组成。

control variables 通常被设置为发布两个限制买入和限制卖出指令的价差。

reward signals 包括库存成本的PnL 或库存成本的实现不足。

2.2.6 Robo-advising

robo-顾问，或自动投资经理，是一类提供最少人工干预的在线财务建议或投资管理的财务顾问。他们基于数学规则或算法提供数字金融建议。近年来，机器人顾问获得了广泛的欢迎，并成为传统人类顾问的显著替代品。第一批机器人顾问是在2008年金融危机之后成立的，当时金融服务机构正面临着从客户那里失去信任的损失。先锋机器人咨询公司的例子包括改善和健康前沿。截至2020年，机器人管理下的资产价值在美国最高，超过了6500亿美元的。

机器人顾问事先不知道客户的风险偏好，但在与客户互动时学习。然后，机器人顾问会根据其目前对客户风险偏好的估计，改进其投资决策。机器人咨询的应用存在几个挑战。首先，客户的风险偏好可能会随着时间的推移而发生变化，并可能取决于市场回报和经济状况。因此，机器人顾问需要确定与客户互动的频率，以确保在调整投资组合分配时，风险偏好的高度一致性。其次，机器人顾问在满足客户意愿的时候，即根据客户的风险偏好进行投资，或为寻求更好的投资表现而违背客户意愿的困境。最后，在从客户那里获取信息的速率和所获取信息的准确性之间也有一个微妙的权衡。一方面，如果交互没有一直发生，机器人顾问可能并不总是能够访问有关客户机配置文件的最新信息。另一方面，传达给机器人顾问的信息可能不能代表客户真正的风险厌恶，因为客户受到行为偏见的影响。

[1] H. Alsabah, A. Capponi, O. Ruiz Lacedelli, and M. Stern, Robo-advising: Learning investors’ risk preferences via portfolio choices, Journal of Financial Econometrics, 19 (2021), pp. 369–392. [2] H. Wang and S. Yu, Robo-advising: Enhancing investment with inverse optimization and deep reinforcement learning, arXiv preprint arXiv:2105.09264, (2021). [3] S. Yu, H. Wang, and C. Dong, Learning risk preferences from investment portfolios using inverse optimization, arXiv preprint arXiv:2010.01687, (2020).

2.2.7 Smart Order Routing

为了执行某一特定资产的交易，市场参与者可能有机会分割交易，并向不同的地点提交订单，包括明池和暗池，该资产的交易。这可能会提高整体的执行价格和数量。决策和结果都受到不同场地的特点以及不同场地的交易费用和回扣结构的影响。

Dark Pools vs. Lit Pools. 暗池是投资公众无法进入的证券交易的私人交易所。这些交易所的名字也被称为“流动性的暗池”，这是指它们完全缺乏透明度。创建暗池是为了促进机构投资者的大宗交易，他们不希望以大量订单影响市场，并为其交易获得不利价格。根据美国证券交易委员会 (SEC) 最近的数据，截至2021年5月，有59个注册的替代交易系统，其中有三种类型：

1.经纪人-经销商拥有的黑池2.代理经纪人或交易所拥有的黑池3.电子市场制造商的黑池。

明池实际上是暗池的对立面。与暗池不同的是，参与者愿意交易的价格不会透露，灯光池会显示出价，并询问不同股票的出价。主要交易所的运作方式是，可随时显示流动性，并构成交易员可用的大部分照明池。

对于智能订单路由(SOR)问题，不同暗池的最重要特征是与交易对手匹配的机会和价格(dis)优势，而明池的相关特征包括订单流、队列大小和取消率。关于使用数据驱动的方法来解决暗池分配和跨明池分配的SOR问题的参考文献很少。

2.3 Further Developments

Risk-aware or Risk-sensitive RL.

风险来自于与未来事件相关的不确定性，这是不可避免的，因为在作出决定时，行动的后果是不确定的。许多决策问题在金融导致交易策略和重要的是考虑提出策略的风险（可以衡量例如的最大后撤，方差或5%的百分比分布）和/或市场环境的风险，如不利选择风险。

因此，在金融应用的RL算法的设计中包括风险度量将是很有趣的。风险敏感RL的挑战既在于目标函数与奖励相关的非线性，又在于设计一个风险感知的探索机制。

Offline Learning and Online Exploration.

在线学习需要实时更新算法参数，这对于许多金融决策问题是不切实际的，特别是在高频情况下。最合理的设置是在交易时间内用预先指定的勘探方案收集数据，并在交易结束后用新收集的数据更新算法。这与在线学习转化为批量数据的离线回归和 RL 密切相关。然而，这些发展侧重于一般的方法，而不是专门针对金融应用程序。

Learning with a Limited Exploration Budget.

探索可以帮助代理商找到新的政策来提高他们未来的累积回报。然而，过多的探索可能既耗时又耗计算，特别是，对于一些金融应用，它可能非常昂贵。此外，在金融机构内部探索黑盒交易策略可能需要很多理由，因此投资者倾向于限制投入勘探的努力，并试图在给定的勘探预算内尽可能地提高业绩。这一想法在精神上类似于保守的RL中，代理探索新的策略来最大化收入，同时将收入保持在固定的基线以上，随着时间的推移一致。这也与经济商品和运营管理所研究的信息获取和成本问题有关。调查金融市场中决策问题的这些成本可能也很有趣。

Learning with Multiple Objectives.

在金融，一个常见的问题是选择一个投资组合时有两个冲突的目标——希望投资组合回报的预期价值尽可能高，希望风险，通常由投资组合回报的标准差，尽可能低。这个问题通常用一个图来表示，其中有效边界显示了可用的风险和预期回报的最佳组合，其中无差异曲线显示了投资者对各种风险-预期回报组合的偏好。决策者有时将这两个标准组合成一个单一的目标函数，包括预期奖励的差异和风险的标量倍数。然而，对于某些应用，将相关标准以线性格式组合起来很可能不符合决策者的最佳利益。例如，场外交易市场上的做市商倾向于将周转时间、资产负债表约束、库存成本、损益等标准视为单独的目标函数。多目标 RL 的研究仍处于初步阶段。

[1] D. Zhou, J. Chen, and Q. Gu, Provable multi-objective reinforcement learning with generative models, arXiv preprint arXiv:2011.10134, (2020). [2] R. Yang, X. Sun, and K. Narasimhan, A generalized algorithm for multi-objective reinforcement learning and policy adaptation, in Advances in Neural Information Processing Systems, vol. 32, 2019.

Robo-advising in a Model-free Setting.

Sample Effiffifficiency in Learning Trading Strategies.

近年来，样本复杂性被广泛研究，以理解现代强化学习算法。然而，大多数RL算法仍然需要大量的样本来训练一个像样的交易算法，这可能超过相关可用历史数据的数量。金融时间序列被认为是非平稳，因此在时间上较远的历史数据可能没有助于为当前市场环境训练有效的学习算法。这就引出了一些重要的问题，即为金融应用设计更高样本效率的RL算法，或开发良好的市场模拟器，从而产生（无限的）现实的市场场景。

Transfer Learning and Cold Start for Learning New Assets.

金融机构或个人可能会改变其一篮子资产以进行交易。可能的原因可能是不时地发行新的资产（例如合作债券），或者投资者可能会将他们的兴趣从一个部门转移到另一个部门。与这种情况相关，有两个有趣的研究方向。当一个投资者有一个良好的交易策略，通过一个资产的RL算法进行训练时，他们应该如何转移经验来训练一个具有更少样本的“相似”资产的交易算法？这与迁移学习密切相关。据我们所知，目前还没有沿着这个方向进行过关于金融应用的研究。另一个问题是新发行资产的冷启动问题。当我们对一个新资产的数据非常有限时，我们应该如何初始化一个RL算法，并使用有限的可用数据和我们的经验（即训练过的RL算法或数据）来学习一个像样的策略？

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2022-04-13，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法

本文分享自卡尼慕微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

编程算法

登录后参与评论

0 条评论

热度