在两个选项中做出选择,该如何选?一个简单而又智能的方法就是A/B。本篇文章将简要地解释A/B测试背后的动机,并概述其背后的逻辑,以及带来的问题:它使用的P值很容易被误解。
在广告系统中,一个重要的指标是CTR。ctr=点击(Click)/曝光(Impression)。
前面理论知识上提到了很多的知识点需要计算,作为一个实用主义的博主,怎么可以忍受空谈呢?所以本期就给大家分享如何利用Python对这些知识点进行计算。
为什么立下这个flag?因为我在各种大会上听腻了人们争论每个月微件(widget)的数量是上升还是下降,或者微件方法X是否比微件方法Y更有效率。
在本文中,我们将在贝叶斯框架中引入回归建模,并使用PyMC3 MCMC库进行推理。
随机数的使用是很多算法的关键步骤,例如蒙特卡洛法、遗传算法中的轮盘赌法的过程,因此对于任意一种语言,掌握其各类型随机数生成的方法至关重要,Python与R在随机数底层生成上都依靠梅森旋转(twiste
这篇文章展示了我们如何使用Metropolis-Hastings(MH)从每次Gibbs迭代中的非共轭条件后验对象中进行采样–比网格方法更好的替代方法。
大数据文摘作品 编译:Niki、张南星、Shan LIU、Aileen 这篇文章让小白也能读懂什么是人们常说的Markov Chain Monte Carlo。 在过去几个月里,我在数据科学的世界里反复遇到一个词:马尔可夫链蒙特卡洛(Markov Chain Monte Carlo , MCMC)。在我的研究室、podcast和文章里,每每遇到这个词我都会“不明觉厉”地点点头,觉得这个算法听起来很酷,但每次听人提起也只是有个模模糊糊的概念。 我屡次尝试学习MCMC和贝叶斯推论,而一拿起书,又很快就放弃了。无
在本章中,我们将讨论随机性和概率。我们将首先通过从数据集中选择元素来简要探讨概率的基本原理。然后,我们将学习如何使用 Python 和 NumPy 生成(伪)随机数,以及如何根据特定概率分布生成样本。最后,我们将通过研究涵盖随机过程和贝叶斯技术的一些高级主题,并使用马尔可夫链蒙特卡洛方法来估计简单模型的参数来结束本章。
一、简介 在现实的机器学习任务中,我们往往是利用搜集到的尽可能多的样本集来输入算法进行训练,以尽可能高的精度为目标,但这里便出现一个问题,一是很多情况下我们不能说搜集到的样本集就能代表真实的全体,其分布也不一定就与真实的全体相同,但是有一点很明确,样本集数量越大则其接近真实全体的可能性也就越大;二是很多算法容易发生过拟合(overfitting),即其过度学习到训练集中一些比较特别的情况,使得其误认为训练集之外的其他集合也适用于这些规则,这使得我们训练好的算法在输入训练数据进行验证时结果非常好,但在训练
像任何统计建模一样,贝叶斯建模可能需要为你的研究问题设计合适的模型,然后开发该模型,使其符合你的数据假设并运行(点击文末“阅读原文”获取完整代码数据)。
例如,使用的rstan包采用了一个Hamiltonian Monte Carlo算法。用于贝叶斯建模的另一个rjags包采用了Gibbs sampling算法。尽管细节有所不同,但这两种算法都是基于基本的Metropolis-Hastings算法的变体。
像任何统计建模一样,贝叶斯建模可能需要为你的研究问题设计合适的模型,然后开发该模型,使其符合你的数据假设并运行
教程地址:http://www.showmeai.tech/tutorials/34
如果你使用 Python 语言进行科学计算,那么一定会接触到 Numpy。Numpy 是支持 Python 语言的数值计算扩充库,其拥有强大的高维度数组处理与矩阵运算能力。除此之外,Numpy 还内建了大量的函数,方便你快速构建数学模型。
许多经济物理学家已经注意到,利用股票(或其他资产)收益估计的经验相关矩阵构建的网络leaves的投资组合,与对同一股票估计的经验协方差进行最小方差优化所得到的投资组合非常相似。
选自TowardsDataScience 作者:William Koehrsen 机器之心编译 参与:陈韵竹、黄小天 通过把马尔科夫链蒙特卡罗(MCMC)应用于一个具体问题,本文介绍了 Python 中 MCMC 的入门级应用。机器之心对本文进行了编译介绍。 GitHub 地址:https://github.com/WillKoehrsen/ai-projects/blob/master/bayesian/bayesian_inference.ipynb 过去几月中,我总是反复遇到同一个数据科学术语:马尔科
伯努利分布(Bernoulli distribution)是关于布尔变量xϵ{0,1}的概率分布,其连续参数μϵ[0,1]表示变量x=1的概率。其概率分布可以写成如下形式:
像任何统计建模一样,贝叶斯建模可能需要为你的研究问题设计合适的模型,然后开发该模型,使其符合你的数据假设并运行。
那从今天开始,我预计会陆陆续续出一些内容,来论述各个算法的基础核心点,大家感兴趣可以关注起来。
在数据科学、机器学习和统计学等领域中,随机数生成是一个关键的操作。NumPy 提供了丰富的随机数生成功能,包括生成服从不同分布的随机数、设置随机种子等。在本篇博客中,我们将深入介绍 NumPy 中的随机数生成操作,并通过实例演示如何应用这些功能。
尽管Stan提供了使用其编程语言的文档和带有例子的用户指南,但对于初学者来说,这可能是很难理解的。
导读:抽样是从整体样本中通过一定的方法选择一部分样本。抽样是数据处理的基本步骤之一,也是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。
本文我们使用加州住房价格数据集,从零开始,一步一步建立模型,预测每个区域的房价中位数。目的是完整实现一个机器学习的流程。
▌背景和问题定义 ---- ---- 2018年我开始了机器学习相关领域的博士生涯,相比于目前流行的深度学习以及类似的需要大量训练数据来生成模型的监督学习方法,强化学习一个重要的不同点是利用训练的数据去评估(evaluate)下一步的行动(action),而不是仅仅指示(instruct)出正确的行动。 导师提供了一个有趣的问题作为切入点来深入理解“强化学习”,那就是多臂老虎机问题(multi-armed bandit)。 多臂老虎机实验本质上是一类简化的强化学习问题,这类问题具有非关联的状态(每次只从
注:本文是回归分析专题的第三部分,此专题是对即将于2021年5月出版的《机器学习数学基础》的补充和提升资料。
来源:Deephub Imba本文约3800字,建议阅读5分钟本文中我们介绍了贝叶斯自举法, 它的关键的想法是,每当我们的估计量以加权估计量表示时,自举过程就等于用多项式权重随机加权。 “自举”(翻译自bootstrap)这个词汇在多个领域可能见到,它字面意思是提着靴子上的带子把自己提起来,这当然是不可能的,在机器学习领域可以理解为原样本自身的数据再抽样得出新的样本及统计量,也有被翻译为自助法的。 Bayesian Bootstrap是一个强大的方法,它比其他的自举法更快,并且可以给出更紧密的置信区间,并
“自举”(翻译自bootstrap)这个词汇在多个领域可能见到,它字面意思是提着靴子上的带子把自己提起来,这当然是不可能的,在机器学习领域可以理解为原样本自身的数据再抽样得出新的样本及统计量,也有被翻译为自助法的。
对其中的核心内容进行了整理,大家看再看一眼,今儿和大家分享的是第二部分内容的讲解~
当现在越来越多的app都已经日活百万千万,新功能是绝对不敢、也绝无必要轻易上线的。(因为一旦全量上线引起用户反感,损失不可估计。)这个时候,AB实验就成为了大型功能上线前的必备利器——进行小流量的测试,利用测试的效果来预估上线后的效果。
选自Medium等 机器之心编译 参与:蒋思源 如何优化机器学习的超参数一直是一个难题,我们在模型训练中经常需要花费大量的精力来调节超参数而获得更好的性能。因此,贝叶斯优化利用先验知识逼近未知目标函数的后验分布从而调节超参数就变得十分重要了。本文简单介绍了贝叶斯优化的基本思想和概念,更详细的推导可查看文末提供的论文。 超参数 超参数是指模型在训练过程中并不能直接从数据学到的参数。比如说随机梯度下降算法中的学习速率,出于计算复杂度和算法效率等,我们并不能从数据中直接学习一个比较不错的学习速度。但学习速率却又是
在这里,我们将帮助客户将 PyMC3 用于两个贝叶斯推理案例研究:抛硬币和保险索赔发生。
在这里,我们将帮助客户将 PyMC3 用于两个贝叶斯推理案例研究:抛硬币和保险索赔发生(点击文末“阅读原文”获取完整代码数据)。
《mixup:BEYOND EMPIRICAL RISK MINIMIZATION》
回归分析是金融中一个绕不过的话题,其实最好的工具应该是R语言,但是pandas其实也是能够胜任绝大部分工作的。
在一次实验中,事件A出现的概率为 ,不出现的概率为 ,若用 记事件A出现的次数,则 仅取值0或1,相应的概率分布为
random.random()函数返回一个范围在[0.0, 1.0)之间的随机浮点数。这是生成均匀分布随机数的基础函数。
药厂宣传新药疗效很好,研究宣称研发的算法比之前的要好或者某项运动是有助于长寿的,我们怎么样来判断这些结果是否靠谱?这些问题就可以用统计学中的假设检验来判断。
numpy.random是numpy的一个子模块,用于生成随机数,在新版的numpy中,有以下两种生成随机数的方式
不论是学习概率统计还是机器学习的过程中,贝叶斯总是是绕不过去的一道坎,大部分人在学习的时候都是在强行地背公式和套用方法,没有真正去理解其牛逼的思想内涵。我看了一下 Chalmers 一些涉及到贝叶斯统计的课程,content 里的第一条都是 Philosophy of Bayesian statistics。
如果你使用 Python 语言进行科学计算,那么一定会接触到 NumPy。NumPy 是支持 Python 语言的数值计算扩充库,其拥有强大的多维数组处理与矩阵运算能力。除此之外,NumPy 还内建了大量的函数,方便你快速构建数学模型。
来源:Deephub Imba本文约3500字,建议阅读9分钟本文对统计假设检验期间发生的 Type-I和 Type-II 错误的直观而详细的解释。 我们每天都在为选择进行自己的假设,并且按照自己认为最好的方向做出选择,所以假设在我们的生活中是无处不在的,例如:A 路是否会比 B 路花费更少的时间,X 的平均投资回报率是否高于 Y 的投资,以及电影 ABC 是否比电影 XYZ 好。在所有这些情况下,我们都在对我们做出的假设进行检验。 建立假设,使用数据证明/反驳它们,帮助企业做出决策,这是数据科学家的实际工
我们每天都在为选择进行自己的假设,并且按照自己认为最好的方向做出选择,所以假设在我们的生活中是无处不在的,例如:A 路是否会比 B 路花费更少的时间,X 的平均投资回报率是否高于 Y 的投资,以及电影 ABC 是否比电影 XYZ 好。在所有这些情况下,我们都在对我们做出的假设进行检验。
In the interest of fostering an open and welcoming environment, we as contributors and maintainers pledge to making participation in our project and our community a harassment-free experience for everyone, regardless of age, body size, disability, ethnicity, sex characteristics, gender identity and expression, level of experience, education, socio-economic status, nationality, personal appearance, race, religion, or sexual identity and orientation.
本文结构: 什么是交叉验证法? 为什么用交叉验证法? 主要有哪些方法?优缺点? 各方法应用举例? ---- 什么是交叉验证法? 它的基本思想就是将原始数据(dataset)进行分组,一部分做为训练集来训练模型,另一部分做为测试集来评价模型。 ---- 为什么用交叉验证法? 交叉验证用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现,可以在一定程度上减小过拟合。 还可以从有限的数据中获取尽可能多的有效信息。 ---- 主要有哪些方法? 1. 留出法 (holdout cross validation)
它的基本思想就是将原始数据(dataset)进行分组,一部分做为训练集来训练模型,另一部分做为测试集来评价模型。
最近发现numpy的random用法有很多,不注意很容易混淆,今天参考几个博客内容整理了一下。
选自otoro.net 机器之心编译 参与:陈韵竹、刘晓坤 在这篇文章中,作者用一些简单的视觉案例解释了进化策略(Evolution Strategies)的工作方式,其中包括了简单进化策略、简单遗传
波动率是一个重要的概念,在金融和交易中有许多应用。它是期权定价的基础。波动率还可以让您确定资产配置并计算投资组合的风险价值 (VaR)
领取专属 10元无门槛券
手把手带您无忧上云