蒙特卡罗法(Monte Carlo method),也称为统计模拟方法(statistical simulation method),是通过从概率模型的随机抽样进行近似数值计算的方法
在强化学习(三)用动态规划(DP)求解中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法。但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态。导致对于复杂问题计算量很大。同时很多时候,我们连环境的状态转化模型$P$都无法知道,这时动态规划法根本没法使用。这时候我们如何求解强化学习问题呢?本文要讨论的蒙特卡罗(Monte-Calo, MC)就是一种可行的方法。
本文做SV模型,选取马尔可夫蒙特卡罗法(MCMC)、正则化广义矩估计法和准最大似然估计法估计。
在强化学习(四)用蒙特卡罗法(MC)求解中,我们讲到了使用蒙特卡罗法来求解强化学习问题的方法,虽然蒙特卡罗法很灵活,不需要环境的状态转化概率模型,但是它需要所有的采样序列都是经历完整的状态序列。如果我们没有完整的状态序列,那么就无法使用蒙特卡罗法求解了。本文我们就来讨论可以不使用完整状态序列求解强化学习问题的方法:时序差分(Temporal-Difference, TD)。
随机抽样是蒙特卡罗法的一种应用,有直接抽样法、接受拒绝抽样法等。接受拒绝法的基本想法是,找一个容易抽样的建议分布,其密度函数的数倍大于等于想要抽样的概率分布的密度函数。按照建议分布随机抽样得到样本,再按要抽样的概率分布与建议分布的倍数的比例随机决定接受或拒绝该样本,循环执行以上过程。
李航是日本东京大学计算机科学博士,曾任微软亚洲研究院高级研究员及主任研究员、华为诺亚方舟实验室首席科学家,现任字节跳动人工智能实验室总监。他的研究方向包括信息检索、自然语言处理、统计机器学习及数据挖掘等。
Heston模型是一种期权估值方法,它考虑到同一资产在给定时间交易的不同期权的波动性变化。它试图通过使用随机过程来模拟波动率和利率来重新创建市场定价。Heston模型的特点是将波动率函数的平方根包含在整个定价函数中。
在金融建模的背景下,随机建模迭代随机变量的连续值,这些值彼此不独立。非独立的意思是虽然变量的值会随机变化,但其起点将取决于其先前的值,因此取决于其先前的值,依此类推;这描述了所谓的随机游走。
在强化学习(十三) 策略梯度(Policy Gradient)中,我们讲到了基于策略(Policy Based)的强化学习方法的基本思路,并讨论了蒙特卡罗策略梯度reinforce算法。但是由于该算法需要完整的状态序列,同时单独对策略函数进行迭代更新,不太容易收敛。
从头开始学习一门编程语言,如果不能设定一个明确的目标:我要用他来干什么,解决什么问题。那么整个过程可以说是相当痛苦了,而且还很快会忘!所以今天咱们就来实际解决一个问题:用蒙特卡洛法实现简易的模拟抽卡功能!
编者按:金融衍生品定价是量化金融中最为关键的问题,当考虑多种因素进行价格评估时会遇到“维数灾难”,这种高度非线性的拟合问题正是神经网络擅长解决的,本文中的最小二乘后向DNN方法(LSQ-BDNN方法)在前面研究基础上提出了将LSQ嵌入DNN的思路,在百慕大期权和CYN中得到了精确性和时效性的验证。
在前面讲到的DQN系列强化学习算法中,我们主要对价值函数进行了近似表示,基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用,但是Value Based强化学习方法也有很多局限性,因此在另一些场景下我们需要其他的方法,比如本篇讨论的策略梯度(Policy Gradient),它是Policy Based强化学习方法,基于策略来学习。
本人在大学时期 待了两年的数学建模社团,也参加过国赛,最近有些许感性,想以此纪念一下。
导语:统计学习即机器学习,是计算机及其应用领域的一门重要学科。此前,李航老师完成的《统计学习方法》是了解机器学习最好的教材之一,该书从 2005 年开始写作一直到 2012 年完成,包含了众多主要的监督学习算法与模型。最近,《统计学习方法》第二版正式发布,通过 6 年时间的努力,在第一版的基础上又增加了无监督学习的主要算法与模型。
在强化学习(五)用时序差分法(TD)求解中,我们讨论了用时序差分来求解强化学习预测问题的方法,但是对控制算法的求解过程没有深入,本文我们就对时序差分的在线控制算法SARSA做详细的讨论。
在强化学习(十七) 基于模型的强化学习与Dyna算法框架中,我们讨论基于模型的强化学习方法的基本思路,以及集合基于模型与不基于模型的强化学习框架Dyna。本文我们讨论另一种非常流行的集合基于模型与不基于模型的强化学习方法:基于模拟的搜索(Simulation Based Search)。
假设 有时间序列数据,如下所示。经验表明,目标变量y似乎与解释变量x有关。然而,乍一看,y在水平中间波动,所以它似乎并不总是有稳定的关系(背后有多个状态)
风险价值 (VaR) 是一种统计数据,用于量化公司、投资组合在特定时间范围内可能发生的财务损失程度
分析师通常关心检测市场何时“发生变化”:几个月或几年内市场的典型行为可以立即转变为非常不同的行为。投资者希望及时发现这些变化,以便可以相应地调整其策略,但是这可能很困难。
1. 原理 2. 模拟代码 # -*- coding:utf-8 -*- # @Python Version: 3.7 # @Time: 2020/5/2 9:02 # @Author: Michae
潜在狄利克雷分配(latent Dirichlet allocation,LDA),作为基于贝叶斯学习的话题模型,是潜在语义分析、概率潜在语义分析的扩展,于2002年由Blei等提出。LDA在文本数据挖掘、图像处理、生物信息处理等领域被广泛使用。
关注数据派THU(DatapiTHU)后台回复“20200618”获取《统计学习方法》相关资料
最近我们被客户要求撰写关于马尔可夫Markov区制转移模型的研究报告,包括一些图形和统计输出。
今天我们继续来看伯克利CS61A,我们来看作业5的最后一道附加题。这道题非常有意思,涉及很多知识,因此想要完整讲明白,需要很多篇幅,所以单独写了一篇。
可使用蒙特卡洛法进行模拟,所谓“蒙特卡罗法”(Monte Carlo Methods,MC),是通过计算机模拟,从总体抽取大量随机样本的计算方法。
波动率是一个重要的概念,在金融和交易中有许多应用。它是期权定价的基础。波动率还可以让您确定资产配置并计算投资组合的风险价值 (VaR)
本篇旨在总结强化学习相关术语,主要参考了邹伟等人所著的《强化学习》(清华大学出版社)这本书。
2.随机向正方形内随机找n个点,计算每一个点到圆心的距离,小于1的就是圆内的点,假设数量是count
最近我们被客户要求撰写关于波动率的研究报告。 波动率是一个重要的概念,在金融和交易中有许多应用。它是期权定价的基础。波动率还可以让您确定资产配置并计算投资组合的风险价值 (VaR)。
分享一道由群员“Melbourne”,外号 “Paper Machine”,有数学小王子之称的小伙伴分享的题目!
软件成本评估度量过程中,我们在估算软件项目工期时,如何使用回归预测分析法估算软件工期?回归预测分析方法都包含哪些步骤?
极值理论对样本尾部分布的极值指数的估计方法主要有两类:半参数方法和全 参数方法,前者主要是基于分布尾部的 Hill 估计量,后者则主要基于广义帕累托分布(点击文末“阅读原文”获取完整代码数据)。
最近我们被客户要求撰写关于随机波动率SV、GARCH的研究报告,包括一些图形和统计输出。
三种常用的统计机器学习方法,非负矩阵分解(NMF)、变分推理、幂法 这些方法通常用于无监督学习的 聚类、降维、话题分析、图分析
统计模拟即是计算机统计模拟,它实质上是计算机建模,而这里的计算机模型就是计算机方法、统计模型(如程序、流程图、算法等),它是架于计算机理论和实际问题之间的桥梁。它与统计建模的关系如下图。
第2篇详细介绍了八种常用的统计机器学习方法,即聚类方法(包括层次聚类与k均值聚类)、奇异值分解(SVD)、主成分分析(PCA)、无监督学习方法总结 22.1无监潜在语义分析(LSA)、概率潜在语义分析(PLSA)、马尔可夫链蒙特卡罗法(CMC,包括 Metropolis-Hastings-算法和吉布斯抽样)、潜在狄利克雷分配(LDA)、 PageRank算法。此外,还简单介绍了另外三种常用的统计机器学习方法,即非负矩阵分解(NMF)变分推理、幂法。这些方法通常用于无监督学习的聚类、降维、话题分析以及图分析。
前言:在计算机出现之前,我们对数学模型的研究只能通过数学推导和实验研究两种方法。在此之后,我们可以通过在计算机上对实际问题的模拟、仿真求解模型。计算机仿真在数学建模中具有很重要的作用,而蒙特卡洛法则是计算机仿真中的一个重要方法。
作者介绍:苗枫,华中科技大学管理学院18级博士研究生,本科时全国大学生数学建模国赛一等奖,并多次带队获得美国数学建模竞赛一等奖
在金融领域,计算效率有时可以直接转化为交易利润。量化分析师面临着在研究效率和计算效率之间进行权衡的挑战。使用Python可以生成简洁的研究代码,从而提高了研究效率。但是,一般的Python代码速度很慢,不适合用于生产环境。在这篇文章中,我们将探索如何使用Python的GPU库来高性能实现奇异期权定价领域遇到的问题。
在本文中,波动率是众多定价和风险模型中的关键参数,例如BS定价方法或风险价值的计算。在这个模型中,或者说在教科书中,这些模型中的波动率通常被认为是一个常数
最近我们被客户要求撰写关于泊松过程的研究报告,包括一些图形和统计输出。 本文描述了一个模型,该模型解释了交易的聚集到达,并展示了如何将其应用于比特币交易数据。这是很有趣的,原因很多。例如,对于交易来说,能够预测在短期内是否有更多的买入或卖出是非常有用的。另一方面,这样的模型可能有助于理解基本新闻驱动价格与机器人交易员对价格变化的反应之间的区别
强化学习总结 强化学习的故事 强化学习是学习一个最优策略(policy),可以让本体(agent)在特定环境(environment)中,根据当前的状态(state),做出行动(action),从而获得最大回报(G or return)。 有限马尔卡夫决策过程 马尔卡夫决策过程理论定义了一个数学模型,可用于随机动态系统的最优决策过程。 强化学习利用这个数学模型将一个现实中的问题变成一个数学问题。 强化学习的故事1:找到最优价值 强化学习就是:追求最大回报G 追求最大回报G就是:找到最优的策略\(\p
相信"迷宫"是许多人儿时的回忆,大家小时候一定都玩过迷宫游戏。我们从不用别人教导,都知道走迷宫的策略是:
近年,人工智能的各个领域,包括自然语言处理、计算机视觉、语音处理,借助深度学习的强大威力,都取得了令人叹为观止的巨大进步。将深度学习技术应用于传统的科学领域,如物理、化学、生物、医学,即所谓的 AI for Science(科学智能),作为一个新的交叉学科,也逐渐兴起,孕育着巨大的潜力,受到广泛的关注。
领取专属 10元无门槛券
手把手带您无忧上云