Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >泊松分布

泊松分布

作者头像
deephub
发布于 2021-01-25 02:42:21
发布于 2021-01-25 02:42:21
87700
代码可运行
举报
文章被收录于专栏:DeepHub IMBADeepHub IMBA
运行总次数:0
代码可运行

一个故事:你已经做了10年的自由职业者了。到目前为止,你的平均年收入约为8万美元。今年,你觉得自己陷入了困境,决定要达到6位数。要做到这一点,你需要先计算这一令人兴奋的成就发生的概率,但你不知道怎么做。

在世界上有许多场景,其中存在某个随机事件的已知概率,企业希望发现该事件在未来发生的概率大于或小于这个概率。例如,已经知道自己平均销售额的零售商所有者会试图猜测他们在黑色星期五或双十一等特殊日子能多赚多少钱。这将帮助他们储存更多的产品,并相应地管理他们的员工。

在这篇文章中,我们将讨论用于模拟上述情况的泊松分布背后的理论,如何理解和使用它的公式,以及如何使用Python代码来模拟它。

离散型概率分布

这篇文章假设你对概率有一个基本的了解。在我们开始真正的文章之前,我们将建立一些对离散概率分布的理解。

首先,让我们定义离散的含义。在描述统计学中,离散数据是通过计数记录或收集的任何数据,即整数。例如考试分数、停车场里的汽车数量、医院里的分娩数量等。

然后,有一些随机实验会产生离散的结果。例如,抛硬币有两种结果:正面和反面(1和0),掷骰子有6种离散结果,以此类推。如果用一个随机变量X来存储离散实验的可能结果,那么它将具有离散概率分布。

概率分布记录了随机实验的所有可能结果。

作为一个简单的例子,让我们来构建一次抛硬币的分布:

这很容易。如果我们想以编程的方式记录这个分布,它应该是Python列表或Numpy数组的形式:

然而,你可以想象,对于有许多可能结果的大型实验,用这种方法建立分布并找到概率是不可能的。值得庆幸的是,每个概率分布都有自己的公式来计算任何结果的概率。对于离散概率分布,这些函数称为概率质量函数(PMF)。

泊松分布

我们将通过一个案例来开始理解泊松分布。假如你真的很喜欢在医院里看新生儿。根据你的观察和报告,你知道医院平均每小时出生6个新生儿。

你发现你明天要出差,所以在去机场之前,你想最后一次去医院。因为你要离开好几个月,你想看到尽可能多的新生儿,所以你想知道在起飞前一小时是否有机会见到10个或更多的婴儿。

如果我们把观察新生儿作为一个随机实验,结果将遵循经典的泊松分布。原因是它满足泊松分布的所有条件:

有一个已知的事件速率:平均每小时有6个新生儿

事件是独立发生的:1婴儿的出生并不影响下一个婴儿的出生时间

已知的出生率随时间是不变的:平均每小时婴儿的数量不随时间变化

两件事不会在同一时刻发生(每个结果都是离散的)

泊松分布具有许多重要的业务含义。企业通常使用他来预测某一天的销售额或客户数量,因为他们知道每天的平均价格。做出这样的预测有助于企业在生产、调度或人员配备方面做出更好的决策。例如,库存过多意味着销售活动减少,或者没有足够的商品意味着失去商机。

简而言之,泊松分布有助于发现事件在固定时间间隔内发生的概率大于或小于已经记录的速率(通常表示为λ(lambda))。

其概率质量函数为:

这个公式的字母含义如下:

  1. k是成功的次数(期望发生的次数)
  2. λ是给定的速率
  3. e为欧拉数,e = 2.71828…
  4. k !是k的阶乘吗

使用这个公式,我们可以求出看到10个新生儿知道平均出生率为6的概率:

不幸的是,只有大约4%的几率能看到10个孩子。

我们不会详细讲解这个公式是如何推导出来的,但如果你感兴趣,请观看可汗学院的视频。

还有一些要点你必须记住。即使有一个已知的速率,它只是一个平均值,所以事件的时间可能是完全随机的。例如,你可以观察两个背靠背出生的婴儿,或者你可能会为下一个婴儿等待半个小时。

而且,在实践中,λ的速率可能不总是恒定的。这甚至适用于我们的新生儿实验。即使这个条件不成立,我们仍然可以认为分布是泊松分布,因为泊松分布足够接近,可以模拟情况的行为。

模拟泊松分布

利用numpy从泊松分布中模拟或抽取样本非常容易。我们首先导入它,并使用它的随机模块进行模拟:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import numpy as np

从泊松分布中提取样本,我们只需要速率参数λ。我们把它插入np,随机的。泊松函数,并指定样本个数:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
poisson = np.random.poisson(lam=10, size=10000)

这里,我们模拟了一个速率为10的分布,有10k个数据点。为了看到这个分布,我们将绘制其PMF的结果。虽然我们可以手工完成,但已经有一个非常好的包叫empiricaldist,由艾伦·b·唐尼(Allen B. Downey)撰写,他是《ThinkPython》(ThinkPython)和《ThinkStats》(ThinkStats)等著名著作的作者。我们将安装并导入其Pmf函数到我们的环境中:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from empiricaldist import Pmf  # pip install empiricaldist

Pmf有一个名为from_seq的函数,它接受任何分布并计算Pmf:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
poisson = np.random.poisson(lam=10, size=10000)
pmf_poisson = Pmf.from_seq(poisson)
pmf_poisson

回想一下,PMF显示了每个唯一结果的概率,所以在上面的结果中,结果被作为指数和概率下的概率给出。让我们使用matplotlib来绘制它:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# Create figure and axes objects
fig, ax = plt.subplots(figsize=(20, 10))

# Plot the PMF
ax.plot(pmf_poisson, marker='.')  # label each data point with a dot

# Labelling
ax.set(title='Probability Mass Function of Poisson Distribution',
       ylabel='P (X = x)', xlabel='Number of events')

plt.show();

正如预期的那样,最高的概率是均值(速率参数,λ)。

现在,让我们假设我们忘记了泊松分布的PMF公式。如果我们做观察新生儿的实验,我们如何求出看到10个新生儿而比率为6的概率呢?

首先,我们用给定的速率作为参数来模拟完美泊松分布。同时,为了获得更好的精度,我们会绘制大量的样本:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
child_births = np.random.poisson(lam=6, size=1000000)

我们对一个速率为6,长度为100万的分布进行抽样。接下来,我们看看他们中有多少人有10个孩子:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
births_10 = np.sum(child_births == 10)

>>> births_10
41114

所以,我们在41114个试验中观察了10个婴儿(每个小时可以考虑有一个试验)。然后,我们用这个数除以样本总数:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
>>> births_10 / 1e6

0.041114

如果您回想一下,使用PMF公式,结果是0.0413,我们可以看到我们手工编写的解决方案非常接近。

结论

关于泊松分布仍有许多值得探讨的地方。我们讨论了这个词的基本用法及其在商业世界中的含义。泊松分布还有一些有趣的地方比如它和二项分布的关系。

作者:Bex T.

原文地址:https://towardsdatascience.com/how-to-use-poisson-distribution-like-you-know-what-you-are-doing-c095c1e477c1

deephub翻译组

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-01-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DeepHub IMBA 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
​常见的8个概率分布公式和可视化
来源:Deephub Imba本文约2800字,建议阅读8分钟本文我们将介绍一些常见的分布并通过Python 代码进行可视化以直观地显示它们。 概率和统计知识是数据科学和机器学习的核心;我们需要统计和概率知识来有效地收集、审查、分析数据。 现实世界中有几个现象实例被认为是统计性质的(即天气数据、销售数据、财务数据等)。这意味着在某些情况下,我们已经能够开发出方法来帮助我们通过可以描述数据特征的数学函数来模拟自然。 “概率分布是一个数学函数,它给出了实验中不同可能结果的发生概率。” 了解数据的分布有助于更好
数据派THU
2022/04/29
1.2K0
​常见的8个概率分布公式和可视化
NumPy 泊松分布模拟与 Seaborn 可视化技巧
泊松分布是一种离散概率分布,用于描述在给定时间间隔内随机事件发生的次数。它常用于模拟诸如客户到达商店、电话呼叫接入中心等事件。
小万哥
2024/05/29
2640
内容范围:正态分布,泊松分布,多项分布,二项分布,伯努利分布
伯努利分布(两点分布/0-1分布):伯努利试验指的是只有两种可能结果的单次随机试验。如果对伯努利试验独立重复n次则为n重伯努利试验。
zenRRan
2019/07/16
4.6K0
3分钟理解泊松分布和指数分布
等号的左边,P 表示概率,N表示某种函数关系,t 表示时间,n 表示数量,1小时内出生3个婴儿的概率,就表示为 P(N(1) = 3) 。
小小杨
2021/10/13
2.8K0
机器学习统计概率分布全面总结(Python)
在平时的科研中,我们经常使用统计概率的相关知识来帮助我们进行城市研究。因此,掌握一定的统计概率相关知识非常有必要。
算法进阶
2023/12/26
6690
机器学习统计概率分布全面总结(Python)
阿里面试官:HashMap中的8和6的关系(1)
候选人无双:JAVA7中在HashMap出现哈希碰撞的时候,会把碰撞的元素用链表相连。JAVA8中在链表长度到达8时会把链表转成红黑树提升查询效率。
黑洞代码
2021/01/14
9880
阿里面试官:HashMap中的8和6的关系(1)
初看泊松分布
看了大多数博客关于泊松分布的理解,都是简单的对公式做一些总结,本篇文章重点关注泊松分布如何被提出,以及理解背后对现实的假设是什么。可以参考参考的资料有 1. 百度百科–泊松分布(推导过程值得研究) 2. wiki pedia –poisson distrubtion(讲的够详细) 3. 一篇大神博文–泊松分布和指数分布:10分钟教程(至少阐述明白了泊松分布用来干嘛)
用户1147447
2019/05/26
1.5K0
统计学03: 泊松分布和指数分布
https://mp.weixin.qq.com/mp/appmsgalbum?__biz=Mzg5MDg4MDU4MQ==&action=getalbum&album_id=290255439476
生信探索
2023/05/06
2690
python实现10种概率分布(附代码)
在概率论和统计学中,均匀分布也被称为矩形分布。这种分布可以通过两个参数a和b来定义,它们分别是数轴上的最小值和最大值,因此通常表示为U(a, b)。
皮大大
2024/08/07
1.1K0
Python实现 8 个概率分布公式及可视化
概率和统计知识是数据科学和机器学习的核心; 我们需要统计和概率知识来有效地收集、审查、分析数据。
数据STUDIO
2022/05/24
1.4K0
Python实现 8 个概率分布公式及可视化
python3-泊松分布
在实际事例中,当一个随机事件,例如某电话交换台收到的呼叫、来到某公共汽车站的乘客、某放射性物质发射出的粒子、显微镜下某区域中的白血球等等,以固定的平均瞬时速率λ(或称密度)随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布P(λ)。因此,泊松分布在管理科学、运筹学以及自然科学的某些问题中都占有重要的地位。 泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数,一块产品上的缺陷数,显微镜下单位分区内的细菌分布数等等。
py3study
2020/01/06
4130
泊松分布 二项分布 正态分布之间的联系
二项分布有两个参数,一个 n 表示试验次数,一个 p 表示一次试验成功概率。现在考虑一列二项分布,其中试验次数 n 无限增加,而 p 是 n 的函数。   1.如果 np 存在有限极限 λ,则这列二项分布就趋于参数为 λ 的 泊松分布。反之,如果 np 趋于无限大(如 p 是一个定值),则根据德莫佛-拉普拉斯(De'Moivre-Laplace)中心极限定理,这列二项分布将趋近于正态分布。   2.实际运用中当 n 很大时一般都用正态分布来近似计算二项分布,但是如果同时 np 又比较小(比起 n来说很小)
学到老
2018/03/16
2.7K0
泊松分布 二项分布  正态分布之间的联系
机器学习数学基础:常见分布与假设检验
所谓机器学习和深度学习, 背后的逻辑都是数学, 所以数学基础在这个领域非常关键, 而统计学又是重中之重, 机器学习从某种意义上来说就是一种统计学习。
Datawhale
2020/07/09
3.4K0
机器学习数学基础:常见分布与假设检验
数据科学17 | 统计推断-期望方差和常见概率分布
随机变量的分布的中心就是其均值或期望值。均值改变,分布会如同均值向左或向右移动。统计推断中,用样本均值估计总体分布的均值(期望值),样本量越多,样本均值约接近总体均值。
王诗翔呀
2020/07/03
1.8K0
数据科学17 | 统计推断-期望方差和常见概率分布
从贝叶斯定理到概率分布的全面梳理!
在本系列文章中,我想探讨一些统计学上的入门概念,这些概念可能会帮助我们了解机器学习或开拓视野。这些概念是数据科学的核心,并经常出现在各种各样的话题上。重温基础知识总是有益的,这样我们就能发现以前并未理解的新知识,所以我们开始吧。
算法进阶
2023/09/01
5420
从贝叶斯定理到概率分布的全面梳理!
用Python结合统计学知识进行数据探索分析
本文用Python统计模拟的方法,介绍四种常用的统计分布,包括离散分布:二项分布和泊松分布,以及连续分布:指数分布和正态分布,最后查看人群的身高和体重数据所符合的分布。 # 导入相关模块import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns %matplotlib inline %config InlineBackend.figure_format ='retina' 随机数
小莹莹
2018/04/24
1.6K0
用Python结合统计学知识进行数据探索分析
用python重温统计学基础:离散型概率分布
在上一篇描述性统计中提到数据分析的对象主要是结构化化数据,而所有的结构化数据可以从三个维度进行描述,即数据的集中趋势描述,数据的离散程度描述和数据的分布形态描述,并对前两个维度进行了介绍。
朱小五
2019/11/26
1.3K0
用python重温统计学基础:离散型概率分布
独家 | 对Fisher信息量的直观解读
Fisher信息量提供了一种衡量随机变量所包含的关于其概率分布中的某个参数(如均值)的信息量的方法。
数据派THU
2023/10/01
1.5K0
独家 | 对Fisher信息量的直观解读
数据分析方法论-统计学内容学习
最初学习数据分析只是出于兴趣,自学了Python。最近才生出转行数据分析的想法,目前已经辞职,准备全身心地投入到学习中。
带萝卜
2020/10/23
4440
数据分析方法论-统计学内容学习
泊松分布和指数分布:10分钟教程
大学时,我一直觉得统计学很难,还差点挂科。 工作以后才发现,难的不是统计学,而是我们的教材写得不好。比起高等数学,统计概念其实容易理解多了。 我举一个例子,什么是泊松分布和指数分布?恐怕大多数人都说不
ruanyf
2018/04/13
1.2K0
泊松分布和指数分布:10分钟教程
相关推荐
​常见的8个概率分布公式和可视化
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验