前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >从零开始学统计 01 | 神奇的正态分布

从零开始学统计 01 | 神奇的正态分布

作者头像
白墨石
发布于 2021-01-12 02:14:12
发布于 2021-01-12 02:14:12
87400
代码可运行
举报
文章被收录于专栏:生信情报站生信情报站
运行总次数:0
代码可运行

一、正态分布介绍

这是在统计学中大名鼎鼎的一种分布,最早由德国的天文学家Moivre提出。

后来,德国数学家高斯(Gauss)首先将其应用于天文学研究,故正态分布也叫“高斯分布”。

高斯的这项工作对后世的科学研究影响极大,以至于德国10马克的钞票上印的是高斯头像和正态分布。

二、正态分布怎么来的

现在我们统计一个班级全部人的身高,为了直观把它们画在数轴上:

然后,把身高分为不同区间

看起来数据点太挤,把它们堆叠起来

将条形图趋势绘制为曲线

上面的曲线就是正态分布,正态分布在这个世界很常见,这会在后面的文章中谈到。

三、举个栗子

下图展示了婴儿和成人身高分布曲线。

曲线形状的不同代表,成年人的身高差异的可能性比婴儿更多。

有两种形状:曲线越宽越低(矮胖型),越窄越高(高瘦型)。这种两种形状反映到生活中的话,婴儿的身高一般差不多,主要集中在20英寸。长大成人后,由于基因和后天的影响,不同人的身高差异开始显现,身高分布就较为广泛,主要在60到80英寸间。

可以直观的看到:不管曲线长相如何,正态分布总是集中在平均值区域,也就是数值集中在中间。

有意思的是,正态分布有个特点:95% 的测量值介于均值±两个标准差。比如,婴儿的95%在20±1.2英寸,成人的介于70±8英寸。

也就是说,只要符合正态分布,未来的测量值,极大的概率(95%)会出现在均值±两个标准差这个区间内。

这个值决定着我们常常听到的置信区间和P值,这个在后面会详细来谈。

三、数学表示

现在看下,正态分布的函数表达式:

可以描述为,随机变量X服从一个位置参数μ,尺度参数σ的概率分布,记做

,或X服从正态分布。一般,μ和σ都是常数,μ代表数据的均值,σ代表数据的标准差。

根据这个上面的正态分布形状,在正态曲线的绘制时,需要知道两个值:

  • 告诉曲线的中心在哪:测量值的均值,μ
  • 告诉曲线有多宽:测量值的标准差,σ

四、R语言绘制

我们可以从图中看到,均值μ决定正态分布的峰值位置,标准差σ决定分布的矮胖,σ越大越胖。

R代码:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
  set.seed(1)
  x <- seq(-10,15,length.out = 1000)
  # 计算N~(-2,1)
  y1 <- dnorm(x, -2,1)
  # 计算N~(2,1)
  y2 <- dnorm(x, 2, 1)
  # 计算N~(2,4)
  y3 <- dnorm(x, 2, 2)
  # 绘图
  plot(x, y1, type = "l", col="#f0932b", ylab = "Density", lwd=2, xlim = c(-8,10))
  lines(x, y2, lwd=2, col="#4834d4")
  lines(x, y3, lwd=2, col="#95afc0")
  legend("topright", c("X~N(-2,1)", "X~N(2,1)", "X~N(2,4)"), col = c("#f0932b", "#4834d4", "#95afc0"), lty = c(1),text.font = 12)

致谢:

https://www.youtube.com/channel/UCtYLUTtgS3k1Fg4y5tAhLbw

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020/09/03 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验