分类
在外汇市场中赚钱的秘密

基于强化学习的自动交易系统研究与发展综述

近年来,强化学习在电子游戏、棋类、决策控制领域取得了巨大进展,也带动着金融交易系统的迅速发展,金融交易问题已经成为强化学习领域的研究热点,特别是股票、外汇和期货等方面具有广泛的应用需求和学术研究意义。本文以金融领域常用的强化学习模型的发展为脉络,对交易系统、自适应算法、交易策略等方面的诸多研究成果进行了综述。最后讨论了强化学习在金融领域应用中存在的困难和挑战,并对今后强化学习交易系统发展趋势进行展望。

基于强化学习的自动交易系统研究与发展综述

近年来,强化学习在电子游戏、棋类、决策控制领域取得了巨大进展,也带动着金融交易系统的迅速发展,金融交易问题已经成为强化学习领域的研究热点,特别是股票、外汇和期货等方面具有广泛的应用需求和学术研究意义。本文以金融领域常用的强化学习模型的发展为脉络,对交易系统、自适应算法、交易策略等方面的诸多研究成果进行了综述。最后讨论了强化学习在金融领域应用中存在的困难和挑战,并对今后强化学习交易系统发展趋势进行展望。
报道:深度强化学习实验室
作者:梁天新
编辑:DeepRL

1. RRL在金融交易系统中的应用

Moody 等人将循环强化学习算法模型(Recurrent Reinforcement Learning,RRL)应用在单一股票和资产投资组合等领域,测试了日内外汇市场(USD / GBP)、标准普尔500(S&P 500 Index)、美国短期国债等金融资产。以收益率为输入,微分夏普比率为目标函数,在交易成本为5‰的情况下进行实验。RRL 策略获得的回报超过Q 学习(Q-Learning)策略和买入持有策略,并在交易次数上明显小于Q 学习策略。

相比监督式的交易系统,Moody 等人提出的RRL 算法是一种在线模式,可以找到随机动态规划问题的近似解[7]。RRL 不需要标记信息,通过行动得到的环境反馈来调整内部参数,增加未来回报的期望值。基于RRL 建立的交易系统通过循环算法解决优化时间信用分配问题和结构信用分配问题[5],RRL 获得的交易利润是路径依赖决策的结果,既包含基于时间的反向传播算法(Back Propagation Through Time,BPTT),也包含在线自适应算法(Adaptive Algorithm)。RRL 既可以应用在单一金融资产交易领域,也可以应用到投资组合管理领域。它在金融领域的应用如图1所示。

2. RRL模型

Moody 等人提出的RRL 模型把金融时间序列作为输入,以最大化微分夏普比率(Sharp Ratio)为目标函数,设计两类金融领域常见的操作:做空(short)、做多(long)。RRL将动作定义为,代表着在_t_ 时刻的操作(空/多),RRL 单层神经网络的预测模型如公式(1.1)所示:

研究中常采用对数收益率,对数收益率比价格差值更容易体现价格的变动,也更容易计算夏普比率、最大回撤率(Max Drawdown) 等风险度量指标。当价格变化幅度

基于强化学习的自动交易系统研究与发展综述

近年来,强化学习在电子游戏、棋类、决策控制领域取得了巨大进展,也带动着金融交易系统的迅速发展,金融交易问题已经成为强化学习领域的研究热点,特别是股票、外汇和期货等方面具有广泛的应用需求和学术研究意义。本文以金融领域常用的强化学习模型的发展为脉络,对交易系统、自适应算法、交易策略等方面的诸多研究成果进行了综述。最后讨论了强化学习在金融领域应用中存在的困难和挑战,并对今后强化学习交易系统发展趋势进行展望。

1. RRL在金融交易系统中的应用

Moody 等人将循环强化学习算法模型(Recurrent Reinforcement 基于强化学习的自动交易系统研究与发展综述 Learning,RRL)应用在单一股票和资产投资组合等领域,测试了日内外汇市场(USD / GBP)、标准普尔500(S&P 500 Index)、美国短期国债等金融资产。以收益率为输入,微分夏普比率为目标函数,在交易成本为5‰的情况下进行实验。RRL 策略获得的回报超过Q 学习(Q-Learning)策略和买入持有策略,并在交易次数上明显小于Q 学习策略。

相比监督式的交易系统,Moody 等人提出的RRL 算法是一种在线模式,可以找到随机动态规划问题的近似解[7]。RRL 不需要标记信息,通过行动得到的环境反馈来调整内部参数,增加未来回报的期望值。基于RRL 建立的交易系统通过循环算法解决优化时间信用分配问题和结构信用分配问题[5],RRL 获得的交易利润是路径依赖决策的结果,既包含基于时间的反向传播算法(Back Propagation Through Time,BPTT),也包含在线自适应算法(Adaptive Algorithm)。RRL 既可以应用在单一金融资产交易领域,也可以应用到投资组合管理领域。它在金融领域的应用如图1所示。

2. RRL模型

Moody 等人提出的RRL 模型把金融时间序列作为输入,以最大化微分夏普比率(Sharp Ratio)为目标函数,设计两类金融领域常见的操作:做空(short)、做多(基于强化学习的自动交易系统研究与发展综述 long)。RRL将动作定义为,代表着在t 时刻的操作(空/多),RRL 单层神经网络的预测模型如公式(1.1)所示:

研究中常采用对数收益率,对数收益率比价格差值更容易体现价格的变动,也更容易计算夏普比率、最大回撤率(Max Drawdown) 等风险度量指标。当价格变化幅度

基于强化学习的自动交易系统研究与发展综述

来源 | 深度强化学习实验室(ID: Deep-RL)

1. RRL在金融交易系统中的应用

Moody 等人将循环强化学习算法模型(Recurrent Reinforcement Learning,RRL)应用在单一股票和资产投资组合等领域,测试了日内外汇市场(USD / GBP)、标准普尔500(S&P 500 Index)、美国短期国债等金融资产。以收益率为输入,微分夏普比率为目标函数,在交易成本为5‰的情况下进行实验。RRL 策略获得的回报超过Q 学习(Q-Learning)策略和买入持有策略,并在交易次数上明显小于Q 学习策略。

相比监督式的交易系统,Moody 等人提出的RRL 算法是一种在线模式,可以找到随机动态规划问题的近似解[7]。RRL 不需要标记信息,通过行动得到的环境反馈来调整内部参数,增加未来回报的期望值。基于RRL 建立的交易系统通过循环算法解决优化时间信用分配问题和结构信用分配问题[5],RRL 获得的交易利润是路径依赖决策的结果,既包含基于时间的反向传播算法(Back Propagation Through Time,BPTT),也包含在线自适应算法(Adaptive Algorithm)。RRL 既可以应用在单一金融资产交易领域,也可以应用到投资组合管理领域。它在金融领域的应用如图1所示。

2. RRL模型

Moody 等人提出的RRL 模型把金融时间序列作为输入,以最大化微分夏普比率(Sharp Ratio)为目标函数,设计两类金融领域常见的操作:做空(short)、做多(long)。RRL将动作定义为,代表着在t 时刻的操作(空/多),RRL 单层神经网络的预测模型如公式(1.1)所示:

研究中常采用对数收益率,对数收益率比价格差值更容易体现价格的变动,也更容易计算夏普比率、最大回撤率(Max Drawdown) 等风险度量指标。当价格变化幅度

基于强化学习的自动交易系统研究与发展综述

来源 | 深度强化学习实验室(ID: Deep-RL)

1. RRL在金融交易系统中的应用

Moody 等人将循环强化学习算法模型(Recurrent Reinforcement Learning,RRL)应用在单一股票和资产投资组合等领域,测试了日内外汇市场(USD / GBP)、标准普尔500(S&P 500 Index)、美国短期国债等金融资产。以收益率为输入,微分夏普比率为目标函数,在交易成本为5‰的情况下进行实验。RRL 策略获得的回报超过Q 学习(Q-Learning)策略和买入持有策略,并在交易次数上明显小于Q 学习策略。

相比监督式的交易系统,Moody 等人提出的RRL 算法是一种在线模式,可以找到随机动态规划问题的近似解[7]。RRL 不需要标记信息,通过行动得到的环境反馈来调整内部参数,增加未来回报的期望值。基于RRL 建立的交易系统通过循环算法解决优化时间信用分配问题和结构信用分配问题[5],RRL 获得的交易利润是路径依赖决策的结果,既包含基于时间的反向传播算法(Back Propagation Through Time,BPTT),也包含在线自适应算法(Adaptive Algorithm)。RRL 既可以应用在单一金融资产交易领域,也可以应用到投资组合管理领域。它在金融领域的应用如图1所示。

2. RRL模型

Moody 等人提出的RRL 模型把金融时间序列作为输入,以最大化微分夏普比率(Sharp Ratio)为目标函数,设计两类金融领域常见的操作:做空(short)、做多(long)。RRL将动作定义为,代表着在t 时刻的操作(空/多),RRL 单层神经网络的预测模型如公式(1.1)所示:

研究中常采用对数收益率,对数收益率比价格差值更容易体现价格的变动,也更容易计算夏普比率、最大回撤率(Max Drawdown) 等风险度量指标。当价格变化幅度