Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一文看懂中心极限定理

一文看懂中心极限定理

作者头像
磐创AI
发布于 2021-04-21 03:13:40
发布于 2021-04-21 03:13:40
2.5K00
代码可运行
举报
运行总次数:0
代码可运行

磐创AI分享

作者 | Indhumathy Chelliah 编译 | VK 来源 | Towards Data Science

中心极限定理

中心极限定理是推理统计中的一个重要概念.推理统计学是指从样本中对总体进行推断.

当我们从总体中抽取一个随机样本并计算其均值时,由于抽样波动,它很可能与总体均值不同.样本统计量和总体参数之间的变化称为抽样误差.

由于这种抽样误差,从样本统计数据中推断总体参数可能是困难的.中心极限定理是推理统计中的一个重要概念,它帮助我们从样本统计量中对总体参数进行推理.

让我们在这篇文章中详细学习中心极限定理.

参考我的推理统计故事——了解概率和概率分布的基础知识

再突破!曹原新年首篇Nature

目录

  1. 统计、参数
  2. 抽样分布
  3. 标准错误
  4. 抽样分布属性
  5. 中心极限定理
  6. 置信区间
  7. 抽样分布可视化

什么是统计和参数?

统计量→代表样本特征的值称为统计量.

参数→表示总体特征的值称为参数.(我们从总体统计数据中推断出的值)

统计量→样本标准差S,样本均值X

参数→总体标准差σ,总体均值μ

我们从统计量到参数进行推理.

抽样分布

抽样——从总体中抽取有代表性的样本.

抽样分布是指从总体中抽取的一个给定样本的所有可能值的分布.

抽样分布均值是指从总体中选取的给定样本容量样本均值的分布.

抽样分布步骤:
  • 我们将从总体中抽取随机样本(s1,s2…sn).
  • 我们将计算样本的均值 (ms1,ms2,ms2….msn).
  • 然后计算抽样均值的均值.(ms)

ms=(ms1+ms2+…msn)/n

n →样本大小.

现在我们算出了抽样均值的均值.接下来,我们必须计算抽样均值的标准差

标准差

样本均值在抽样分布中的可变程度是标准差.抽样分布的标准差称为均值的标准差.

均值标准差=总体标准差/sqrt(n)

n -样本大小

[随着样本量的增加,标准差减小.所以大样本有助于减少标准差]

抽样分布特性

  1. 抽样均值的均值等于总体抽样均值的均值等于总体均值.

当我们从总体中抽取许多随机样本时,这些变化就会抵消掉.抽样均值的均值等于总体均值

  1. 抽样分布的标准差等于总体标准差除以根号下样本容量抽样分布的标准差等于总体标准差除以根号下样本容量抽样分布的标准差等于总体标准差除以根号下样本容量.

中心极限定理

中心极限定理指出,即使总体不是正态分布,抽样分布也会服从正态分布,前提是我们从总体中抽取足够大的样本.[对于大多数分布,n>30将给出一个接近正态的抽样分布]

抽样分布的性质也适用于中心极限定理。

置信区间

通过使用置信区间,我们可以说总体均值将处于某个范围内.

置信区间是总体参数可以取的值的范围.

总体均值置信区间=样本均值+(置信水平值)*均值标准差

Z→Z分数与置信程度相关.

最常用的置信水平

99%置信水平→Z得分= 2.58

95%置信水平→Z得分= 1.96

90%置信水平→Z得分=1.65

使用Python和Seaborn进行抽样分布

例子:

  1. 假设我们要计算一所学校所有学生的平均分.

学生人数= 1000.

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
population1=np.random.randint(0,100,1000)
  1. 检查分布
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
sns.distplot(population1,hist=False)

总体不是正态分布的.

  1. 我们将从总体中抽取小于30的随机样本.
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
sample_means1=[]
for i in range(0,25):
 sample=np.random.choice(population1,size=20)
 sample_means1.append(np.mean(sample))

sample_m1=np.array(sample_means1)
  1. 抽样分布
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
sns.distplot(sample_means1,hist=False)
plt.title(“Sampling distribution of sample mean”)
plt.axvline(sample_m1.mean(),color=’green’,linestyle=’ — ‘)
plt.xlabel(“Sample Mean”)

抽样分布接近正态分布

  1. 让我们检查一下抽样均值和标准差.
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
print (“Sampling mean:,round(sample_m1.mean(),2))
print (“Standard Error:,round(sample_m1.std(),2))
#Output:
Sampling mean:  47.96
Standard Error:  6.39

标准差= 6.39.我们增加样本容量,看看标准差是否下降.

  1. 抽样量大于30,计算抽样均值
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
sample_means2=[]
for i in range(0,100):
 sample=np.random.choice(population1,size=50)
 sample_means2.append(np.mean(sample))

sample_m2=np.array(sample_means2)
  1. 抽样分布
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
sns.distplot(sample_means2,hist=False)
plt.title(“Sampling distribution of sample mean”)
plt.axvline(sample_m2.mean(),color=’green’,linestyle=’ — ‘)
plt.xlabel(“Sample Mean”)

抽样分布现在是正态分布.

  1. 计算抽样均值和标准差
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
print (“Sampling mean:,round(sample_m2.mean(),2))
print (“Standard Error:,round(sample_m2.std(),2))

# Output:
Sampling mean:  48.17
Standard Error:  3.89

增大样本量后,标准差减小.现在标准差是3.89.

  1. 我们来验证一下总体均值
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
print (“Population Mean:,round(population1.mean(),2))

#Output:
Population Mean: 48.03

抽样均值是48.17约等于总体均值48.03

  1. 计算99%置信水平的置信区间.
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
Lower_limit=sample_m2.mean()- (2.58 * (sample_m2.std()))
print (round(Lower_limit,2))
#Output: 38.14

Upper_limit=sample_m2.mean()+ (2.58 * (sample_m2.std()))
print (round(Upper_limit),2)
#Output: 58.19

置信区间= 38.14 - 58.19

结论

在本文中,我介绍了中心极限定理、抽样分布、标准差和置信区间.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-04-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 磐创AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
如何理解95%置信区间_95的置信区间和90的置信区间
项目github地址:bitcarmanlee easy-algorithm-interview-and-practice 经常有同学私信或留言询问相关问题,V号bitcarmanlee。github上star的同学,在我能力与时间允许范围内,尽可能帮大家解答相关问题,一起进步。
全栈程序员站长
2022/11/09
4.5K0
如何理解95%置信区间_95的置信区间和90的置信区间
复习中心极限定理
中心极限定理(Central Limit Theorem)是统计学中的核心理论,指出当独立随机变量的样本量足够多时,它们的平均值将逐渐趋近于正态分布。它建立在大数定律和正态分布的基础上,通过数学推导和证明,解释了为什么当样本容量足够大时,样本均值的采样分布会趋近于正态分布。基于这一定理,我们能够通过样本的均值来估计总体均值。该理论在统计推断和假设检验中占据重要地位,使我们得以从样本数据中推断出总体的特性。
叶庭云
2024/05/25
2140
复习中心极限定理
数据分析师必掌握的统计学知识!
概率是指的对于某一个特定事件的可能性的数值度量,且在0-1之间。我们抛一枚硬币,它有正面朝上和反面朝上两种结果,通常用样本空间S表示,S={正面,反面},而正面朝上这一特定的试验结果叫样本点。对于样本空间少的试验,我们极易观察出他们样本空间的大小,而对于较复杂的试验,我们就需要学习些计数法则了。
Python数据科学
2019/03/14
9710
数据分析师必掌握的统计学知识!
A/B Test 的统计原理和效果解读
持续快速有效的 A/B Test 是实现业务从十到百增长的必杀器,而背后的黑科技来源于基础的统计理论。为此,本文将介绍做 A/B Test 所涉及的重要统计学知识,以帮助更好的设计实验和解读实验结果,做出科学有效的数据驱动决策。
阿泽 Crz
2020/12/11
2.1K0
A/B Test 的统计原理和效果解读
讲讲中心极限定理
今天我们来聊聊统计学里面比较重要的一个定理:中心极限定理,中心极限定理是指:现在有一个总体数据,如果从该总体数据中随机抽取若干样本,重复多次,每次抽样得到的样本量统计值(比如均值)与总体的统计值(比如均值)应该是差不多的,而且重复多次以后会得到多个统计值,这多个统计值会呈正态分布。还是直接来看例子吧。
张俊红
2020/03/31
1K0
讲讲中心极限定理
没有最好,只有A/B测试!
“A/B测试不一定是最好的评估方法。它不是万能的,但不会A/B测试肯定是不行的。”
阿泽 Crz
2021/07/06
1.7K0
没有最好,只有A/B测试!
中心极限定理通俗介绍
中心极限定理是统计学中比较重要的一个定理。 本文将通过实际模拟数据的形式,形象地展示中心极限定理是什么,是如何发挥作用的。
zenRRan
2018/07/25
1.3K0
中心极限定理通俗介绍
统计学整理(二)
有两个正态分布的总体X~N(\(μ_1,σ_1^2\)),Y~N(\(μ_2,σ_2^2\)),来自X的样本\(X_1,X_2,...,X_n\),样本均值
算法之名
2024/07/14
1000
统计学整理(二)
数据分析师必备的基本统计学知识
数据分析师,无疑是数据时代最耀眼的职业之一,统计学,又是数据分析师必备的基础知识。
1480
2019/07/15
1.3K0
数据分析师必备的基本统计学知识
如何通俗地解释「置信区间」和「置信水平」?
历史上最早的科学家曾经不承认实验可以有误差,认为所有的测量都必须是精确的,把任何误差都归于错误。后来人们才慢慢意识到误差永远存在,而且不可避免。即使实验条件再精确也无法完全避免随机干扰的影响,所以做科学实验往往要测量多次,用取平均值之类的统计手段去得出结果。
猴子数据分析
2024/03/25
3.7K0
如何通俗地解释「置信区间」和「置信水平」?
中心极限定理的解释和关键假设
围绕这些基本统计概念的问题确实会在数据科学面试中出现。但是一些追求趋势的数据科学家经常将他们的学习时间投入到最新趋势和新算法上,但却因为没有重新审视基本概念而在面试中挂掉了。
deephub
2021/08/20
8250
两篇文章带你深入理解A/B Testing(二)
导读:这里是A/B Testing的第二篇文章,如果希望了解A/B Testing 实际应用的指标说明,可以只读当前文章这部分。如果你希望了解一些理论基础,可以先看第一篇。
数据森麟
2021/01/08
8480
两篇文章带你深入理解A/B Testing(二)
讲讲Bootstrap是在干啥?
学过统计学的同学应该对置信区间都有了解,置信区间又叫估计区间,是从概率来讲某个随机变量可能取的值的范围。
张俊红
2020/11/11
8050
讲讲Bootstrap是在干啥?
大数定理与中心极限定理
大数定律和中心极限定理是概率论与数理统计中的两个重要概念,它们在理论研究和实际应用中都具有重要意义。
用户11315985
2024/10/16
3320
AB试验(二)统计基础
AB试验(二)统计基础 随机变量 均值类指标:如用户的平均使用时⻓、平均购买金额、平均购买频率等 概率类指标:如用户点击的概率(点击率)、转化的概率(转化率)、购买的概率 (购买率)等 经验结论:在数
HsuHeinrich
2023/09/18
7731
AB试验(二)统计基础
数据分析必备——统计学入门基础知识
导读:要做好数据分析,除了自身技术硬以及数据思维灵活外,还得学会必备的统计学基础知识!因此,统计学是数据分析必须掌握的基础知识,即通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域,而在数据量极大的互联网领域也不例外,因此扎实的统计学基础是一个优秀的数据人必备的技能。
数据社
2020/10/09
1.7K0
数据分析必备——统计学入门基础知识
统计学最重要的10个概念【附Pyhon代码解析】
平均值是一组数据的算术平均数,计算方法是将所有数值相加后除以数据的总数。它是最常用的集中趋势度量,但容易受极端值影响。
Ai学习的老章
2024/09/12
2030
统计学最重要的10个概念【附Pyhon代码解析】
蒙特卡罗(Monte Carlo)方法——从数学原理到实际案例
Monte Carlo方法是一种应用随机数来进行计算机模拟的方法,通过对所研究系统进行随机观察抽样并对样本值进行统计分析,来得到所研究系统的某些参数。
mindtechnist
2025/05/15
6170
蒙特卡罗(Monte Carlo)方法——从数学原理到实际案例
干货分享--统计学知识大梳理(第三部分-最终篇)
现实生活中,总体的数量如果过于庞大我们无法获取总体中每个数据的数值,进行对总体的特征提取进而完成分析工作。那么接下来就用到了本章节的知识。
1480
2020/03/06
1.2K0
干货分享--统计学知识大梳理(第三部分-最终篇)
概率论--置信区间和置信度
置信区间的计算公式有多种不同的变体,每种变体适用于不同的情况。以下是几种常见的置信区间计算公式及其适用情况:
用户11315985
2024/10/16
1.4K0
概率论--置信区间和置信度
相关推荐
如何理解95%置信区间_95的置信区间和90的置信区间
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验