Fisher信息量提供了一种衡量随机变量所包含的关于其概率分布中的某个参数(如均值)的信息量的方法。
我们将从Fisher信息量的原始定义和计算公式开始。
Fisher信息量的定义和计算公式
给定一个随机变量y ,假设其服从概率分布f(y;θ) ,其中θ是该分布的参数(或参数向量),则Fisher信息量是其对数似然函数l(θ/y)关于参数θ的偏导数的方差。
图:参数θ的Fisher信息量被表示为其对数似然函数l(θ/y)关于参数θ的偏导数的方差(图片来源:作者)
上述公式可能看起来有些吓人,不过不用担心。在本文中,我们首先将深入理解Fisher信息量的概念,然后了解它为什么这样去计算,以及它是如何进行计算的。
让我们从一个例子开始吧。
一个关于泊松过程的例子
让我们从下面这个数据样本开启我们的探索之旅吧。这是一个泊松过程的模拟,它模拟了一家医院急诊室每小时患者到达人数的情况。
图:对医院急诊室到达的病人数量的泊松过程模拟(图片来源:作者)
在这个样本中,随机变量(我们称其为y)表示每小时的患者到达人数。由于y是一个离散随机变量,它肯定遵循某个概率质量函数(PMF)。像这样的整数型事件数据通常可以很好地被泊松分布所表示,如下所示:
图:描述随机变量y的泊松分布的概率质量函数(图片来源:作者)
现在,让我们先后退一步,想想以下两点:
现在,假设你观察到在某个小时内,有一定数量的患者走进急诊室。比如说,y=20。那么,要是能知道y包含的有关总体的真实平均速率λ0的信息量,对我们来说肯定非常有用。而Fisher信息量就能让我们以数学所擅长的可量化的方式来做到这一点!
在我们理解如何得到随机变量y中包含的Fisher信息量之前,让我们再次看一下泊松概率的公式:
图:描述随机变量y的泊松分布的概率质量函数(图片来源:作者)
注意到它其实是以下两个变量的函数:
所以,我们可以对这个等式做一点小小的改变,就像下面这样:
图:由y和λ共同构成的泊松分布的概率质量函数(图片来源:作者)
假设我们开了上帝视角,知道总体的人流量平均速率的真值为λ0=16。令 λ=λ0=16,我们得到了f(y;λ)关于y的图形:
图:泊松分布的概率质量函数图(当λ=16)(图片来源:作者)
这张关于y的概率质量函数图给出了下面这个问题的答案:
在平均速率的真值为16的情况下,单位时间内观察到人流量为0,1,2,3… 事件发生的概率是多少?
没有任何意外, 概率f(y;λ=16)在λ=16处达到峰值。
泊松分布的变量通常是整数值(也就是离散的),但我们将用平滑的曲线来表示它。严格地说,简单地将PMF(离散的概率函数)转换成平滑的概率曲线是非常不正确的,但是将其表示为平滑曲线将有助于我们使用单一参数分布(如泊松分布)来说明Fisher信息量的一些基本概念。下面是上述分布的连续版本:
图:f(y;λ)图像(λ=16)(图片来源:作者)
似然的概念
现在,假设我们只观察y=10的情况。我们将y固定为10,而速率λ则可以在0到∞内变化。
那么,我们不禁要问一个问题:给定不同的速率λ,在某个单位时间的间隔内观察到10次事件的概率是多少?
这个问题背后暗含着似然函数的概念。
下面的图展示了f(y;λ)关于λ变化的情况. 它在形状上和刚刚那张图非常相似,区别在于它们的横纵坐标不同。
在上一张图中,X轴表示随机变量 y的观测值,Y轴表示概率(y是连续变量时则表示其概率密度)。
在下面这张图中,图的X轴则表示参数λ的取值,Y轴则描绘了λ的似然函数,用花体的L表示,也就是L(λ/y),更一般的情况下写作L(λ/θ),θ是y的概率分布中的参数。给定随机变量y的某个观测值时,它被称作θ的似然函数。
图:λ的似然函数图(y=10)(图片来源:作者)
在这个图中,我们可以观察到以下三点(对应图中蓝色方框圈出的地方):
图:似然函数中变化较慢的地方(图片来源:作者)
1.当真实(但未知)的速率λ的值与y的观测值(这里是10)距离很远时,似然函数的变化不大。在图中我们用左下角和右下角的蓝色矩形标记出来(在曲线的右边这一点更明显)。
2.类似地,当真实(但未知)的速率λ的值与y的观测值(这里是10)距离很近时,似然函数的变化不大。这一点可以从图中曲线最高处的扁矩形内看出。
3.对于λ的其他取值,λ的每一个单位的变化,都会导致对应的单位时间内观测到10次事件发生的概率变化很大。
以上三种直觉上的发现都是通过观察关于λ的似然函数L(λ/y)的绝对值的变化率发现的。
似然函数关于θ的变化率
图:L(λ/y)关于λ求偏导的绝对值(图片来源:作者)
我们通过将观测值y固定为一小时内观测到10次事件,构建了上图,图中所表现的是以下值关于平均速率的变化:
图:L(λ/y)关于λ求偏导的绝对值(图片来源:作者)
对数似然的概念
一般来说,我们不直接对似然函数
求微分,更方便的做法是对似然函数的自然对数求微分,原因如下:
的积。这种优化技术称为最大似然估计。如果被优化的函数是下凹(上凸)的,那么优化目标是可以达到的,而很多概率分布函数只有在取对数时才满足这一条件。
对数似然函数通过小写的花体l表示, 即 l(λ;y),给定随机变量y的某个观测值时,它被称作θ关于y的对数似然函数。
对泊松分布的分布函数取对数,并进行如下简化:
图:泊松分布函数的自然对数(图片来源:作者)
对数似然函数的微分
让我们将y固定为某个观察到的值y,并将 ln(f(λ;y))重写为对数似然函数l(λ/y=y)。接下来,我们对l(λ/y=y)关于λ求偏导数,得到以下函数:
图:对数似然函数关于λ求偏导(图片来源:作者)
绘制该函数在λ非负时的图像:
图:l(λ/y=y)关于λ求偏导的函数图像(只取λ非负的部分)(图片来源:作者)
上述图具有以下特征:
下面让我们来看点有意思的事情:
对数似然函数偏导数的方差
就像y一样,对数似然函数的偏导数同样是一个随机变量,也有均值和方差。
这个函数的方差越小,观测值y与y的概率分布的均值真实值就越可能接近。换句话说,随机变量y所包含的关于真实的y的均值信息就越多;而偏导数l(λ/y=y)关于θ的方差越大,y包含的关于其真实的均值信息就越少。
因此,y包含的关于(假定的)y的分布中的某个参数θ的真实值的信息,与其对数似然函数的偏导数关于θ的方差之间存在反比关系。这种反比关系通过y的分布的Fisher信息量来表示,如下所示:
图:Fisher信息量(图片来源:作者)
上述方程的右侧可以使用以下计算随机变量X方差的公式来简化:
图:随机变量X的方差计算公式(图片来源:作者)
让我们回想一下,对数似然函数的偏导数本身是一个随机变量,也具有均值,也就是关于y的期望值。因此,我们可以使用上述提到的方差公式,如下所示:
图:Fisher信息量(图片来源:作者)
在上述公式中需要注意的一个重要事项是,右侧的期望值,即E()运算符是关于随机变量y的。它们不是关于y的概率分布的参数θ的期望值。这很合理,因为对数似然函数的偏导数始终是针对随机变量的特定观测值y=y计算的。例如,在泊松分布这个例子中,我们计算的是某个小时内观察到10 个事件(y=10)对应的值。因此,对于随机变量y的每个观测值,对数似然函数的偏导数可能具有不同的值。因此,偏导数的期望值的作用,随意一点地说,是在观测值的整个范围内“平滑”方差。
等式 (1) 右边的第一个期望可以通过佚名统计学家公式(Law of the unconscious statistician,简便起见下文称LOTUS) 来简化,过程如下:
图:The Law of the Unconscious Statistician (LOTUS) (图片来源:作者)
我们可以像下面这样使用LOTUS来计算等式 (1)右边的第一个期望:
图:简化Fisher信息量公式(图片来源:作者)
类似地,我们也可以使用LOTUS来计算等式(1)右边的第二个期望:
图:简化Fisher信息量公式(图片来源:作者)
在上述公式中,右侧的积分可以进一步简化,注意到对数似然函数l(θ/y=y)实际上是随机变量y的概率分布函数f(θ;y)的自然对数,并且它是两个变量y和θ的函数。因此,它关于θ的偏导数可以表示成如下的形式:
(图片来源:作者)
我们把这个结果代入到方程(1b)右侧的积分中。另外,由于右侧的积分是关于y的,可以将对θ的偏导数从这个积分中取出,如下所示:
图:简化Fisher信息量公式中的(1b) (图片来源:作者)
在上述简化中,我们利用了这一点:由于是f(.)所假定的y的概率分布, f(y=y)从-∞到 -∞的积分对于1,而对常数值1的偏导数为零。因此,等式(1b)化简得到零。
现在,让我们回顾一下Fisher信息的方程,如等式(1)所示:
图:Fisher信息量的计算公式(图片来源:作者)
等式 (1) 包含了等式 (1a):
(图片来源:作者)
和被我们计算证明为0的1b。
因此,我们得到以下结果:
对于一个被假定服从概率分布f(y;θ)的随机变量y,可以使用以下公式计算该分布的Fisher信息量:
图:Fisher信息量的计算公式(图片来源:作者)
参考文献:
Fisher R. A., (1922) On the mathematical foundations of theoretical statistics, Philosophical Transactions of the Royal Society of London. Series A, Containing Papers of a Mathematical or Physical Character. 222309–368. http://doi.org/10.1098/rsta.1922.0009
图片来源:
本文中的所有图像均受Sachin Date 版权保护,CC-BY-NC-SA,除非图像下方提到了不同的来源和版权。
原文标题:
An Intuitive Look At Fisher Information
原文链接:
https://towardsdatascience.com/an-intuitive-look-at-fisher-information-2720c40867d8
编辑:黄继彦
校对:杨学俊
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有