首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >BioScience: 贯穿科学界的对数正态分布

BioScience: 贯穿科学界的对数正态分布

作者头像
Listenlii-生物信息知识分享
发布于 2021-01-05 02:36:06
发布于 2021-01-05 02:36:06
3.7K0
举报

JournalBioScience

Published: 01 May 2001

生物学和数学对概念化、形式化和抽象化的需求与日俱增。数学对于分析和表征随机变化特别重要,如人群中个体的大小和体重、他们对化学物质的敏感度,事件发生的时间等。这些数据的频率分布是决定可以对任何数据集有效执行统计分析类型的主要因素。许多广泛使用的统计方法,如方差分析(ANOVA)和回归分析,都要求数据服从正态分布,但在使用这些技术时,很少对数据的频率分布进行检验。

高斯(正态)分布最常被假定为描述来自许多学科的数据中出现的随机变化;众所周知的钟形曲线可以很容易地用两个值来描述和描述:算术平均值x和标准差s,因此数据集通常用表达式x±s来描述。正态分布的例子比比皆是。然而许多测量结果显示出或多或少的偏态分布。当平均值低、方差大、值不能为负值时,偏态分布尤其常见,例如,物种丰富度、传染病潜伏期的长短以及地壳中矿产资源的分布。这种偏态分布通常非常符合对数正态分布。图1给出了正态分布(对称分布)和对数正态分布(偏态分布)的拟合实例。注意,身高符合这两种分布。

图1正态分布和对数正态分布的例子。a,1052名女性的身高分布拟合正态分布,拟合优度p值0.75, b,1573份蜂蜜样品中羟甲基糠醛的含量符合对数正态(p = 0.41),但不符合正态(p = 0.0000)。有趣的是,女性身高的分布同样符合对数正态分布(p = 0.74)。

通常,生物的机制导致对数正态分布,且这个问题与进一步的对称的变异性结合在一起:细菌的平均浓度为106个,一个细胞分裂将导致2×106-或5×105细胞。因此变异范围将是不对称的,准确地说是围绕平均值乘以或除以2。

正态变异性和对数正态变异性有什么不同?这两种形式的可变性都是基于各种相互独立作用的力。一个主要的区别是,可变性是可加(additive)的,或可乘(multiplicative)的,从而分别导致正态分布或对数正态分布

用两个普通骰子可以很容易地演示加法和乘法效应的一些基本原理。将这两个数字相加,这是大多数游戏的原理,得到的值从2到12,平均值为7,频率分布对称。总范围可以描述为7±5,在这种情况下,5不是标准偏差。然而,将这两个数字相乘得到的值介于1和36之间,具有高度倾斜的分布。总变异性可以用6乘以6或除以6(或6×/6)来描述。在这种情况下,对称性移动到乘法水平。

虽然这些例子既不是正态分布,也不是对数正态分布,但它们确实清楚地表明,加法和乘法效应会导致不同的分布。因此,我们不能用相同的方式描述这两种类型的分布。然而不幸的是,人们普遍认为数量的可变性通常是钟形的和对称的目前常见的做法是使用图形中的误差线来表示标准偏差或误差,并用符号±来汇总数据,即使数据或基本原理可能暗示偏态分布。在许多情况下,变异性明显是不对称的,因为从平均值中减去三个标准差会产生负值,如100±50。

对数正态分布通常以对数变换变量为特征,使用其分布的期望值或平均值和标准差作为参数。这种表征可能是有利的,因为根据定义,对数正态分布在对数水平上也是对称的。不幸的是,一旦涉及对数,人们对统计的普遍厌恶就变得更加明显。这可能是人们对对数正态分布知之甚少的主要原因,从而导致经常产生误解和错误。当前处理对数正态分布的方法通常很笨拙。

为了了解样本,大多数人更喜欢从原始数据而不是经过对数转换的数据进行思考。这个概念对于对数正态分布数据来说也确实是可行和可取的,因为我们熟悉的正态分布的性质在对数正态分布中也有其相似之处。为了加深对对数正态分布的理解,鼓励人们正确使用对数正态分布,并展示它们在生活中的重要性,我们提出了一个新的物理模型来产生对数正态分布,从而填补了一个百年来的空白。我们还演示了参数的演变和使用,这些参数允许在原始规模下对数据进行表征。此外,我们比较了不同科学分支的对数正态分布,以阐明变异性的模式,从而再次强调对数正态分布在生活中的重要性。

演示对数正态分布起源的物理模型

Galton (1889年)提出了一个简单的物理模型,给出了二项式的清晰可视化,最后是正态可变性及其衍生。

图2a显示了这种“Galton板”的进一步发展,其中粒子从板上落下,并以相等的概率在判定点(三角形障碍物的尖端)左右偏离 (Galton使用了简单的钉子,而不是这里所示的等腰三角形,所以他的发明类似于弹球机或日本的弹子游戏)。

正态分布反映了决策点序列的累积相加效应。在顶部离开漏斗的粒子与第一个障碍物的尖端相遇,并以相等的概率向左或向右偏离距离c。然后,它与第二行中的相应三角形相遇,并再次以相同的方式偏离,以此类推。粒子从一行到下一行的偏差是随机变量的实现,可能的值为+c和-c,并且这两个值的概率相等。最后,经过r排三角形后,粒子落入底部的r+1个容器中。最终到达这些容器(编号为0,1,…,r)的概率遵循参数为r且p=0.5的二项式定律。当许多粒子通过障碍物时,堆积在几个容器中的粒子的高度将近似与二项式概率成正比。

对于较大的行数,根据中心极限定理,概率逼近正态密度函数。在其最简单的形式中,这个数学定律规定许多(R)个独立的、同分布的随机变量的和在极限为r→∞的情况下是正态分布的。因此,具有多排障碍物的Galton板的正态密度是容器中颗粒堆的期望高度,其机理是r个独立随机变量之和的思想。

图2 物理模型显示正态和对数正态分布的成因。粒子从漏斗中掉落到三角形的顶端,在那里它们以相同的概率(0.5)向左或向右偏移,最终落入容器中。分布的中位数低于粒子的入口点。三角形的左边缘的距离x, 粒子位置在x + c和x - c的正态分布面板(a)和x·c和x / c的对数正态分布面板(b),其中c为常量。分布是由许多小的随机效应(根据中心极限定理)产生的,这些随机效应对于正态分布是相加的,对于对数正态分布是相乘的。

图2b显示了如何修改Galton的结构以描述这些变量的乘积的分布,这最终导致对数正态分布。为此需要使用比例三角形,较长的一侧位于右侧。设从木板左边缘到漏斗下方第一个障碍物尖端的距离为xm。第一个三角形的下角位于xm·c和xm/c处。因此,粒子在X=xm·c或X=xm/c处与下一行三角形的尖端相遇,两个值的概率相等。在第二行和后续行中,尖端与左边缘距离为x的三角形在x·c和x/c处具有较低的角。因此,粒子的水平位置在每行乘以一个随机变量,其两个可能值c和1/c的概率相等。(原文我没看懂)

因此对于大量的行,最终高度接近对数正态分布。这源于中心极限定理的乘法版本,它证明了许多独立的、同分布的、正随机变量的乘积近似为对数正态分布

对数正态分布的基本性质

如果log(X)为正态分布,则称随机变量X为对数正态分布。变量只能是正值,并且分布向左倾斜(图3a)。

需要两个参数来指定对数正态分布。传统上,使用log(X)的平均值µ和标准差σ(或方差σ2)(图3b)。但是,使用反向转换值可利用原始数据,因而有明显的优势:(1)µ∗:=eµ,σ∗:=eσ。

然后使用X∼Λ(µ∗,σ∗)作为数学表达式,表示X按照对数正态分布,具有中位数µ∗和乘性标准差σ∗。

图3 原尺度(A)和对数尺度(b)的对数正态分布。曲线下的面积,从中位数到两边,分别对应正态分布的一个和两个标准差范围。

比较科学领域中的对数正态分布

来自不同科学分支的对数正态分布的例子揭示了有趣的模式。

地质学和采矿业:在地壳中,元素的浓度和它们的放射性通常遵循对数正态分布。

人类医学:医学上的各种例子都符合对数正态分布。如传染病的潜伏期(从感染到首发症状的时间)。

环境:环境中颗粒、化学物质和有机体的分布通常是对数正态的。例如,播种云和非播种云的降雨量;蜂蜜中羟甲基糠醛含量;空气质量的污染物标准指数。

大气科学和空气生物学:许多大气理化性质服从对数正态分布规律;气溶胶和云的尺寸分布;湍流过程的参数。

植物医学和微生物学:种群对杀菌剂敏感性的分布和种群规模的分布;植物上细菌的丰度因植物种类、细菌类型和环境的不同而不同,并已被发现呈对数正态分布;对数正态分布很好地拟合了植物角质层中的渗透性和溶质移动性。

在大多数动植物群落中,物种丰富度服从(截断)对数正态分布。

对数正态分布的各种应用与食品技术和食品加工工程中的结构表征有关。这种分散结构可以是分散过程中产生的颗粒、液滴和气泡的大小和频率,或者它们可以是滤膜中的孔。后者通常由直径也呈对数正态分布的颗粒形成。

语言学:在语言学中,每个单词的字母数和每个句子的词数符合对数正态分布。

社会科学和经济学:结婚年龄、农场规模和收入。

正态还是对数正态?

进一步考虑正态分布和对数正态分布的模式,以及它们之间的联系和区别,有助于描述和解释与生活中的频率分布有关的现象。

对数正态变异性的范围。由于对正态分布的普遍偏好,我们被要求找出服从正态分布但与对数正态分布不匹配的数据示例。有趣的是,最初的测量并没有产生任何这样的例子。如前所述,即使是女性身高的经典例子也同样符合这两种分布。我们发现的正态分布(但不是对数正态分布)数据的例子包括原始测量的差异、总和、均值或其他函数。这些发现提出了关于对称性在自然界数量变化中的作用的问题。

为什么正态分布如此受欢迎。不考虑统计因素,正态分布比对数正态分布更为人所知的原因有很多。

一个主要的原则似乎是对称性,这是自然界以及我们的文化和思维中实现的基本原则之一。因此,基于对称性的概率分布可能比基于偏斜的概率分布更具内在吸引力。

另外两个原因与简单性有关。

首先,正如Aitchison和Brown(1957,第2页)所说:人类发现加法比乘法更容易运算,因此第一个提出加法误差定律并不奇怪。其次,对正态样本--x±s--建立的简明描述非常方便、广为人知,并且足以表示潜在的分布,这使得到目前为止,处理正态分布比处理对数正态分布更容易。

另一个原因与分布的历史有关:正态分布的已知和应用时间是其对数正态姊妹分布的两倍多。最后,与“对数正态”相比,“正态”这一概念让非统计学家产生了更多积极的联想。由于所有这些原因,正态分布或高斯分布远比大多数人熟悉的对数正态分布更为熟悉。这种偏好导致了两种使数据看起来正常的实用方法,即使它们是不对称的。首先,偏态分布会产生很大的值,这些值可能看起来是异常值。通常的做法是拒绝接受这样的观察,并在没有这些观察的情况下进行分析,从而减少了偏斜,但引入了偏见。其次,偏态数据通常被组合在一起,它们的均值--更具正态分布--用于进一步的分析。当然,遵循这一过程意味着数据的重要特征可能仍未被发现。

为什么对数正态分布通常是原始数据更好的模型。如上所述,相加效应和正态分布之间的联系与乘法效应和对数正态分布之间的联系是平行的。很久以前就注意到,如果来自一维测量的数据在自然界中符合正态分布,那么二维和三维结果,如表面和体积,就不可能是对称的。对数正态分布作为一个合适的模型的一些效应已经在不同的论文中被描述过。有趣的是,即使在生物系统学,也就是分类科学中,每个科的物种数量预计也符合对数正态分布。然而,对数正态分布重要性的最基本指标可能更一般。显然,化学和物理是生活中的基础,而这些学科法则中的主流运算是乘法。例如,在化学中,简单反应的速度取决于所涉及的分子浓度的乘积。均衡条件同样是由乘法作用的因素决定的。由此,一个主要的对比变得显而易见:自然界中支配频率分布的原因通常倾向于对数正态分布,而人们则倾向于正态分布。

对于较小的变异系数,正态分布和对数正态分布都能很好地拟合。对于这些案例,自然会选择适合于变异性增加的相关案例的分布,这符合控制变异性原因的规律。这通常是对数正态分布。

结论

简而言之,本文展示了对数正态分布的基本作用,并为更深入地理解该作用提供了见解。

Aitchison and Brown(1957)在他们的书的第一页说,与其姊妹分布,即正态分布和二项分布相比,对数正态分布“仍然是分布里的灰姑娘(the Cinderella of distributions)”。

尽管有越来越多的证据表明对数正态分布在物理、生物和社会科学中广泛存在,但在经济学中,对数正态分布的知识仍然很分散。

现在的问题是:我们能否开始将我们拥有的关于正态分布和对数正态分布的丰富知识带给公众?、

我们认为,在描述原始数据时,这样做会导致对数正态分布的优先级高于正态分布。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-01-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Listenlii 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
​常见的8个概率分布公式和可视化
来源:Deephub Imba本文约2800字,建议阅读8分钟本文我们将介绍一些常见的分布并通过Python 代码进行可视化以直观地显示它们。 概率和统计知识是数据科学和机器学习的核心;我们需要统计和概率知识来有效地收集、审查、分析数据。 现实世界中有几个现象实例被认为是统计性质的(即天气数据、销售数据、财务数据等)。这意味着在某些情况下,我们已经能够开发出方法来帮助我们通过可以描述数据特征的数学函数来模拟自然。 “概率分布是一个数学函数,它给出了实验中不同可能结果的发生概率。” 了解数据的分布有助于更好
数据派THU
2022/04/29
1.2K0
​常见的8个概率分布公式和可视化
数据科学17 | 统计推断-期望方差和常见概率分布
随机变量的分布的中心就是其均值或期望值。均值改变,分布会如同均值向左或向右移动。统计推断中,用样本均值估计总体分布的均值(期望值),样本量越多,样本均值约接近总体均值。
王诗翔呀
2020/07/03
1.8K0
数据科学17 | 统计推断-期望方差和常见概率分布
数据分析师必掌握的统计学知识!
概率是指的对于某一个特定事件的可能性的数值度量,且在0-1之间。我们抛一枚硬币,它有正面朝上和反面朝上两种结果,通常用样本空间S表示,S={正面,反面},而正面朝上这一特定的试验结果叫样本点。对于样本空间少的试验,我们极易观察出他们样本空间的大小,而对于较复杂的试验,我们就需要学习些计数法则了。
Python数据科学
2019/03/14
9840
数据分析师必掌握的统计学知识!
为什么「正态分布」在自然界中如此常见?
假设你老妈挺操心你单身狗的生活,怕你孤独而死。为了给你寻找优质的相亲对象,就把你的照片放到了相亲网站上。艾玛,这可好一下子吸引来200多个人留言,要与你“私定终身”。
猴子数据分析
2024/07/01
2881
为什么「正态分布」在自然界中如此常见?
微生物领域名言(8)环境样本是什么分布?
Link: https://www.sciencedirect.com/science/article/pii/S0048969715313164?via%3Dihub#bb0020 “如果我们知
Listenlii-生物信息知识分享
2021/01/05
7020
微生物领域名言(8)环境样本是什么分布?
机器学习统计概率分布全面总结(Python)
在平时的科研中,我们经常使用统计概率的相关知识来帮助我们进行城市研究。因此,掌握一定的统计概率相关知识非常有必要。
算法进阶
2023/12/26
6660
机器学习统计概率分布全面总结(Python)
高中就开始学的正态分布,原来如此重要
机器学习的世界是以概率分布为中心的,而概率分布的核心是正态分布。本文说明了什么是正态分布,以及为什么正态分布的使用如此广泛,尤其是对数据科学家和机器学习专家来说。
机器之心
2019/07/12
6280
高中就开始学的正态分布,原来如此重要
不得不学的统计学基础知识(一)
统计学是数据分析必须掌握的基础知识,它是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域,而在数据量极大的互联网领域也不例外,因此扎实的统计学基础是一个优秀的数据分析师必备的技能。统计学的知识包括了图形信息化、数据的集中趋势、概率计算、排列组合、连续型概率分布、离散型概率分布、假设检验、相关和回归等知识,对于具体的知识点,楼主就不一一介绍了,感兴趣的同学请参考书籍《深入浅出统计学》、《统计学:从数据到结论》,今天的分享主要会选取统计学中几个容易混淆的、比较重要的知识点进行分享。
数据万花筒
2020/12/30
3.1K0
不得不学的统计学基础知识(一)
概率论和统计学中重要的分布函数
每当我们遇到任何概率实验,我们谈论的是随机变量,它只不过是获取实验预期结果的变量。例如,当我们掷骰子时,我们期望从集合{1,2,3,4,5,6}中得到一个值。所以我们定义了一个随机变量X,它在每次掷骰时取这些值。
deephub
2020/08/21
1.8K0
概率论和统计学中重要的分布函数
Python实现 8 个概率分布公式及可视化
概率和统计知识是数据科学和机器学习的核心; 我们需要统计和概率知识来有效地收集、审查、分析数据。
数据STUDIO
2022/05/24
1.4K0
Python实现 8 个概率分布公式及可视化
钟形曲线:中心极限定理 精选
已有 27345 次阅读 2017-7-31 09:15 |个人分类:系列科普|系统分类:科普集锦
用户2188327
2020/07/13
1.2K0
正态分布为何如此重要?
为什么正态分布如此特殊?为什么大量数据科学和机器学习的文章都围绕正态分布进行讨论?我决定写一篇文章,用一种简单易懂的方式来介绍正态分布。
AI科技大本营
2019/07/15
1.2K0
正态分布为何如此重要?
数据并非都是正态分布:三种常见的统计分布及其应用
你有没有过这样的经历?使用一款减肥app,通过它的图表来监控自己的体重变化,并预测何时能达到理想体重。这款app预测我需要八年时间才能恢复到大学时的体重,这种不切实际的预测是因为应用使用了简单的线性模型来进行体重预测。这个模型将我所有过去的体重数据进行平均处理,然后绘制一条直线预测未来的体重变化。然而,体重减轻通常不会呈线性发展,使用更复杂的数学模型,如泊松回归,可能会更加贴近真实情况。
deephub
2024/06/17
6220
数据并非都是正态分布:三种常见的统计分布及其应用
数据分析师必看的5大概率分布
原文链接:https://blog.csdn.net/yoggieCDA/article/details/100703311
Sam Gor
2019/10/17
8720
python3-正态分布
loc 平均值 scale (scale) 标准差 pdf(x, loc=0, scale=1)
py3study
2020/01/06
1.9K0
Mathematica 11在概率和统计方面的新功能
1 1 导读 版本 11 在概率和统计方面添加了大量改进和扩展. 从描述性统计和随机变量到时间序列和随机过程,整体框架更加强大、快速且易于使用. 2 1 案例 下面小编用Mathematica求解几个
WolframChina
2018/05/31
1.4K0
学界 | 为什么数据科学家都钟情于最常见的正态分布?
大数据文摘出品 编译:JonyKai、元元、云舟 对于深度学习和机器学习工程师们来说,正态分布是世界上所有概率模型中最重要的一个。即使你没有参与过任何人工智能项目,也一定遇到过高斯模型,今天就让我们来看看高斯过程为什么这么受欢迎。 高斯分布(Gaussian distribution),也称正态分布,最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着
大数据文摘
2018/06/29
1.4K0
最小二乘法与正态分布
17、18 世纪是科学发展的黄金年代,微积分的发展和牛顿万有引力定律的建立,直接的推动了天文学和测地学的迅猛发展。当时的大科学家们都在考虑许多天文学上的问题,这些天文学和测地学的问题,无不涉及到数据的多次测量、分析与计算;17、18 世纪的天文观测,也积累了大量的数据需要进行分析和计算。很多年以前,学者们就已经经验性的认为,对于有误差的测量数据,多次测量取算术平均是比较好的处理方法。虽然缺乏理论上的论证,也不断的受到一些人的质疑,取算术平均作为一种异常直观的方式,已经被使用了千百年, 在多年积累的数据的处理经验中也得到相当程度的验证,被认为是一种良好的数据处理方法。
为为为什么
2023/02/21
8540
最小二乘法与正态分布
【独家】考察数据科学家和分析师的41个统计学问题
作者:Dishashree Gupta 翻译:闵黎 卢苗苗 校对:丁楠雅 本文长度为6500字,建议阅读20分钟 本文是Analytics Vidhya所举办的在线统计学测试的原题,有志于成为数据科学家或者数据分析师的同仁可以以这41个问题测试自己的统计学水平。 介绍 统计学是数据科学和任何数据分析的基础。良好的统计学知识可以帮助数据分析师做出正确的商业决策。一方面,描述性统计帮助我们通过数据的集中趋势和方差了解数据及其属性。另一方面,推断性统计帮助我们从给定的数据样本中推断总体的属性。了解描述性和
数据派THU
2018/01/29
1.8K0
【独家】考察数据科学家和分析师的41个统计学问题
机器学习数学基础:数理统计与描述性统计
所谓机器学习和深度学习, 背后的逻辑都是数学, 所以数学基础在这个领域非常关键, 而统计学又是重中之重, 机器学习从某种意义上来说就是一种统计学习。
Datawhale
2020/07/02
1.8K0
机器学习数学基础:数理统计与描述性统计
相关推荐
​常见的8个概率分布公式和可视化
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档