最大似然估计是建立在最大似然原理的基础之上。最大似然原理的直观理解是:设一个随机试验有若干个可能的结果 A1,A2,...,An A_1,A_2,...,A_n,在一次试验中,结果 Ak A_k出现,则一般认为实验对 Ak A_k的出现最有利,即 Ak A_k出现的概率较大。这里用到了”概率最大的事件最可能出现”的直观想法,然后对 Ak A_k出现的概率公式求极大值,这样便可解未知参数。下面用一个例子说明最大似然估计的思想方法。
假设一个服从离散型分布的总体X,不妨设 X∼B(4,p) X\sim B(4,p),其中参数 p p未知.现抽取容量为3的样本, X1,X2,X3 X1,X2,X3,如果出现的样本观测值为1,2,1,此时 p p的取值如何估计比较合理?注: B(n,p) B(n,p)为二项分布,二项分布指每一次实验只有0和1两个结果,其中 n n表示实验次数, p p表示每次结果为1的概率,概率求解公式为: P(x=k)=Ckn∗pk∗(1−p)n−k P(x=k)=C_n^k * p^k * (1-p)^{n-k} (1.1)
考虑这样一个问题,为什么样本结果是1,2,1,而不是另外一组 x1,x2,x3 x1,x2,x3呢?设事件 A={ X1=1,X2=2,X3=1} A=\{X_1=1,X_2=2,X_3=1\},事件 B={ X1=x1,X2=x2,X3=x3} B=\{X_1=x_1,X_2=x_2,X_3=x_3\},应用概率论的思想,大概率事件发生的可能性比小概率事件发生的可能性要大,即A发生的概率较大,套用公式1.1可以得出: P(A)=C14p(1−p)3∗C24p2(1−p)2∗C14p(1−p)3=96p4(1−p)8 P(A)=C_4^1p(1-p)^3*C_4^2p^2(1-p)^2*C_4^1p(1-p)^3=96p^4(1-p)^8
应该让P(A)的取值应该尽可能大。对P(A)进行求导取极值可知,当p=1/3时,P(A)取到最大值,所有有理由认为p=1/3有利于事件A发生,所有p应该取值为1/3比较合理。
设 X1,X2,...,Xn X1,X2,...,Xn为来自总体 X X的简单随机样本, x1,x2,...,xn x1,x2,...,xn为样本观测值.称
L(θ)=∏i=1np(xi,θ)
L(\theta)=\prod_{i=1}^np(x_i,\theta) 为参数 θ \theta的似然函数。其中,当总体 X X为离散型随机变量时, p(xi,θ) p(x_i,\theta)表示X的分布列 P{ X=xi}=p(xi,θ) P\{X=x_i\}=p(x_i,\theta);当总体 X X为连续性型随机变量时, p(xi,θ) p(x_i,\theta)表示 X X的密度函数 f(x,θ) f(x,\theta)在 xi x_i处的取值 f(xi,θ)=p(xi,θ) f(x_i,\theta)=p(x_i,\theta)。
参数 θ \theta的似然函数 L(θ) L(\theta)实际上就是样本 X1,X2,...,Xn X1,X2,...,Xn恰好取观察值 x1,x2,...,xn(或其领域) x1,x2,...,xn(或其领域)的概率。如果总体 X X为离散型随机变量时, L(θ)=P{X1=x1,X2=x2,...,Xn=xn}=P{X1=x1}∗P{X2=x2}∗...∗P{Xn=xn}= L(\theta)=P\{X_1=x_1,X_2=x_2,...,X_n=x_n\}=P\{X_1=x_1\}*P\{X_2=x_2\}*...*P\{X_n=x_n\}=
∏i=1np(xi,θ)
\prod_{i=1}^np(x_i,\theta) 如果总体 X X为连续性型随机变量,由于当 Δxi \Delta x_i非常小时, P{ xi−Δxi2<Xi<xi+Δxi2}=P{ xi−Δxi2<X<xi+Δxi2}=∫xi+Δxi2xi−Δxi2f(x,θ)dx≈f(xi,θ)∗Δxi P\{x_i-\frac{\Delta x_i}{2} < X_i < x_i+\frac{\Delta x_i}{2}\}=P\{x_i-\frac{\Delta x_i}{2} < X < x_i+\frac{\Delta x_i}{2}\}=\int_{x_i-\frac{\Delta x_i}{2}}^{x_i+\frac{\Delta x_i}{2}}f(x,\theta)dx \approx f(x_i,\theta)*\Delta x_i
于是
P{ x1−Δx12<X1<x1+Δx12,x2−Δx22<X2<x2+Δx22,...,xn−Δxn2<Xn<xn+Δxn2}= P\{x_1-\frac{\Delta x_1}{2} < X_1 < x_1+\frac{\Delta x_1}{2},x_2-\frac{\Delta x_2}{2} < X_2 < x_2+\frac{\Delta x_2}{2},...,x_n-\frac{\Delta x_n}{2} < X_n< x_n+\frac{\Delta x_n}{2}\}=
∏i=1nP{ xi−Δxi2<Xi<xi+Δxi2}≈∏i=1nf(xi,θ)Δxi=L(θ)∏i=1nΔxi
\prod_{i=1}^nP\{x_i-\frac{\Delta x_i}{2} < X_i < x_i+\frac{\Delta x_i}{2}\}\approx \prod_{i=1}^nf(x_i,\theta)\Delta x_i=L(\theta)\prod_{i=1}^n\Delta x_i
注意我们求的是样本落在区间 [xi−Δxi,xi+Δxi] [x_i-\Delta x_i,x_i+\Delta x_i]的概率,而不是样本落在点 xi x_i的概率,现在我们求出了落在区间的概率为
L(θ)∏i=1nΔxi
L(\theta)\prod_{i=1}^n\Delta x_i 又该区间的概率应该近视等于 P{ X=xi}∗Δxi P\{X=x_i\}*\Delta x_i,即用点 xi x_i的发生概率代表区间平均概率密度,所以 L(θ) L(\theta)代表的是一组点对应的概率的乘积,即样本 X1,X2,...,Xn X_1,X_2,...,X_n落在观测值 x1,x2,...,xn x_1,x_2,...,x_n附近的概率。
设
L(θ)=∏i=1np(xi,θ)
L(\theta)=\prod_{i=1}^np(x_i,\theta)为参数 θ \theta的似然函数,若存在一个只与样本观察值 x1,x2,...,xn x_1,x_2,...,x_n有关的实数 θ^(x1,x2,...,xn),使得 \hat\theta (x_1,x_2,...,x_n),使得 L(θ^)=maxL(θ) L(\hat\theta)=max L(\theta) 则称 θ^(x1,x2,...,xn) \hat\theta (x_1,x_2,...,x_n)为参数 θ \theta的最大似然估计值,称 θ^(X1,X2,...,Xn) \hat\theta (X_1,X_2,...,X_n)为参数 θ \theta的最大估计量。 注意 θ^(x1,x2,...,xn) \hat\theta(x_1,x_2,...,x_n)仅仅是一个实数值,后面带的 (x1,x2,...,xn) (x_1,x_2,...,x_n)表示这个值的取值与它们有关。 由上可知,所谓最大似然估计是指通过求似然函数 L(θ) L(\theta)的最大(或极大)值点来估计参数 θ \theta的一种方法。 另外,最大似然估计对总体中未知参数的个数没有要求,可以求一个未知参数的最大似然估计,也可以一次求多个未知参数的最大似然估计,这个通过对多个未知参数求偏导来实现,因为多变量极值就是偏导运算。需要注意的是,似然函数 L(θ) L(\theta)不一定有极大值点,但是未必没有最大值点,所以对于有些问题,求导求极大值可能会失效,这时需要考虑边界点。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/222948.html原文链接:https://javaforall.cn