首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >估计参数的方法:最大似然估计、贝叶斯推断

估计参数的方法:最大似然估计、贝叶斯推断

作者头像
lovelife110
发布于 2021-01-14 08:15:16
发布于 2021-01-14 08:15:16
1.3K0
举报
文章被收录于专栏:爱生活爱编程爱生活爱编程

一、最大似然估计

假设有3个数据点,产生这3个数据点的过程可以通过高斯分布表达。这三个点分别是9、9.5、11。我们如何计算高斯分布的参数μ 、σ的最大似然估计?

我们想要计算的是观测到所有数据的全概率,即所有观测到的数据点的联合概率分布。为此我们需要计算一些条件概率,这可能会很困难。所以这里我们将做出我们的第一个假设。假设每个数据点的生成和其他点是独立的。这一假设让数学容易很多。如果事件(即生成数据的过程)是独立的,那么观测到所有数据的全概率是分别观测到每个数据点的概率的乘积(即边缘概率的乘积)。

观测到高斯分布生成的单个数据点x的(边缘)概率为:

P(x; μ, σ) 中的分号强调之后的符号代表概率分布的参数

在我们的例子中,观测到3个数据点的全(联合)概率为:

我们只需找出能最大化以上表达式的值的μ和σ的值。

我们可以通过微分找到函数的最大(最小)值。我们只需找到函数的导数,将导数设为零,重新整理等式,即可得到值。

对数似然

实际上,对上面的全概率表达式求导很麻烦。所以我们基本上总是通过取自然对数对其加以简化。由于自然对数是单调递增函数,所以这么做绝对没问题。单调递增函数意味着随着x轴的值增加,y轴的值也同样增加(见下图)。这很重要,因为这确保了当概率的对数达到最大值时,原概率函数同样达到最大值。因此我们可以操作简化了的对数似然,而不是原本的似然。

为什么要取log

乘法变成加法,从而减少了计算量;同时,如果概率中含有指数项,如高斯分布,能把指数项也化为求和形式,进一步减少计算量;另外,在对联合概率求导时,和的形式会比积的形式更方便。

但其实可能更重要的一点是,因为概率值都在[0,1]之间,因此,概率的连乘将会变成一个很小的值,可能会引起浮点数下溢,尤其是当数据集很大的时候,联合概率会趋向于0,非常不利于之后的计算。

取对数不影响单调性

因为相同的单调性,它确保了概率的最大对数值出现在与原始概率函数相同的点上。因此,可以用更简单的对数似然来代替原来的似然。

对原表达式取对数,我们得到:

据对数定律,上式可以简化为:

对以上表达式求导以找到最大值。在这个例子中,我们将寻找均值μ的MLE。为此,我们求函数关于μ的偏导数:

最后,我们将等式的左半部分设为0,据μ整理等式得到:

这样我们就得到了μ的最大似然估计。同理,我们可以求得σ的最大似然估计

为什么是最大似然,而不是最大概率?

这只是统计学家在卖弄学问(不过他们的理由很充分)。大部分人倾向于混用概率和似然,但是统计学家和概率论学者区分了两者。以下等式突显了两者之所以容易混淆的原因:

这两个表达式是相等的!所以这意味着什么?让我们先来定义P(data; μ, σ)。它的意思是“基于模型参数μ和σ观测到数据的概率”。值得注意的是,我们可以将其推广到任意数目的参数和任意分布。

另一方面,L(μ, σ; data)的意思是“我们已经观测到一组数据,参数μ和σ取特定值的似然”。

上面的等式意味着给定参数得到数据的概率等于给定数据得到参数的似然。然而,尽管两者相等,似然和概率根本上问的是不同的问题——一为数据,一为参数。这就是这一方法叫做最大似然而不是最大概率的原因。

二、贝叶斯推断

贝叶斯定理定义

贝叶斯定理如何允许我们纳入先验信念?

贝叶斯定理允许我们纳入先验信念,但是只看前文给出的等式,很难看出这是怎么办到的。所以让我们使用冰淇淋和天气的例子来说明。

A表示我们看到冰淇淋的事件,B表示天气事件。接着我们也许会问已知天气类型的前提下,销售冰淇淋的概率是多少?在数学上这写作P(A=冰淇淋销售 | B=天气类型),对应于贝叶斯定理等式的左侧。

等式右侧的P(A)被称为先验。在我们的例子中,这是P(A=冰淇淋销售),即不考虑天气类型的情况下,销售冰淇淋的(边缘)概率。P(A)被称为先验是因为我们可能已经知道冰淇淋销售的边缘概率。例如,我可能查看过数据,100个潜在顾客中,有30人在某处的某家店实际购买了冰淇淋。所以,在我知道任何关于天气的信息之前,P(A=冰淇淋销售) = 30/100 = 0.3。这样,贝叶斯定理让我们纳入了先验知识。

贝叶斯推断

首先,(在统计学上)推断是推理数据的种群分布或概率分布的性质的过程。上面说的最大似然其实就包含了这一过程。我们基于观察到的一组数据点决定均值的最大似然估计。

因此贝叶斯推断不过是使用贝叶斯定理推理数据的种群分布或概率分布的性质的过程。

将贝叶斯定理应用于分布

到目前为止,所有的例子中,贝叶斯定理的每一项的值都是单个数字。这意味着我们得到的答案也将是单个数字。然而,有时候单个数字可能不怎么合适。

在前文的冰淇淋的例子中,我们看到销售冰淇淋的先验概率是0.3。然而,如果0.3只是我的最佳猜测,我并不是非常确定,会怎么样?概率也可能是0.25或0.4。在这一情形下,用一个分布来表示我们的先验信念可能更加合适(见下图)。这一分布被称为先验分布

上图为表示任意一天冰淇淋销售的两个分布。蓝色曲线和金色曲线的峰值均位于0.3附近,如前所述,这是我们对冰淇淋销售的先验概率的最佳猜测。而f(x)在其他处的值并不为零,表明我们并不是完全确信0.3是冰淇淋销售的真实值。蓝色曲线显示它可能是0到0.5之间的任何值,而金色曲线显示它可能是0和1之间的任何值。相比蓝色曲线,金色曲线更为舒展,峰值更低,这意味着金色曲线表达的先验概率“不那么确定”。

基于类似的方法,我们可以用分布表示贝叶斯定理中的其他项。当我们处理模型的时候,大多数情况下我们都需要使用分布。

贝叶斯定理的模型形式

前文介绍贝叶斯定理的定义时,我使用A、B表示事件。但关于贝叶斯定理的模型形式的文献往往使用不同的符号。

我们通常使用Θ而不是A。Θ表示一组参数。所以如果我们尝试估计高斯分布的参数值,那么Θ表示均值μ和标准差σ(在数学上写作Θ = {μ, σ})。

我们通常使用data或者y = {y1, y2, ..., yn},而不是B。这代表数据,也就是我们的观测集合。我会在等式中显式地使用data,希望这能让等式看起来不那么晦涩。

因此,贝叶斯定理的模型形式:

P(Θ)为先验分布,表示我们关于参数的真值的信念,就像我们之前用分布表示我们关于冰淇淋销售的概率的信念。

等式左边的P(Θ|data)称为后验分布。它表示基于已经观测到的数据计算出等式右边的各项之后我们对参数的信念。

其实我们之间已经接触过P(data|Θ)。如果你读完了上面最大似然的内容,那么你会记得我们提到过L(data; μ, σ) 是(高斯分布的)似然分布。好,P(data|Θ) 正是这个,它是改头换面的似然分布。有时它写作ℒ(Θ; data),都是一回事。有时它被称为证据

因此,我们可以通过证据更新我们的先验信念来计算我们的参数的后验分布

这给了我们充足的信息来讨论使用贝叶斯推断来推断参数的一个例子。但是首先……

为什么我完全忽视了P(data)?

除了数据的边缘概率之外,P(data)并没有什么特别的名字。记住,我们关心的是参数值,而P(data)并没有提到参数。事实上,P(data)甚至不是一个分布。它只是一个数字。我们已经观测到了数据,因此我们计算出P(data)。一般而言,结果我们发现计算P(data)会非常困难

P(data)之所以重要,是因为它得出的数字是一个归一化常量。概率分布的一个必要条件是一个事件的所有可能性的概率之和为1(例如,投掷一枚6面骰得到1、2、3、4、5、6点的全概率等于1)。归一化常量通过确保分布之和(其实我应该说积分,因为通常我们碰到的是连续分布,不过目前这么说太过于卖弄学问了)等于1来确保所得的后验分布是真实概率分布。

在某些情况下,我们并不关心分布的这一性质。我们只关心分布的峰值何时出现,而不在乎分布是否归一化。在这一情况下,很多人把贝叶斯定理的模型形式写作

其中∝表示“成比例”。这显式地表明了真实后验分布不等于右边的式子,因为我们没有考虑归一化常量P(data)。

共轭分布

你会注意到,我们所有关于分布的例子中都使用了高斯分布。主要的一个原因是这大大简化了数学。但是在贝叶斯推断的例子中 ,我们得计算两个分布的乘积。我说过这很凌乱,所以我没有详细列出数学计算过程。但是即便我自己没有进行这些数学计算,我早就知道后验分布会是高斯分布。因为高斯分布具有一个特别的性质,使得高斯分布易于处理。高斯分布和自身的高斯似然函数是共轭的。这意味着,如果我将一个高斯先验分布乘以一个高斯似然函数,我将得到一个高斯后验函数。后验与先验来自同一分布家族(它们都是高斯分布)意味着它们是共轭分布。在这个例子中,先验分布是一个共轭先验

在很多推断的场景中,我们选择使所得分布共轭的似然和先验,因为这简化了数学。数据科学中的一个例子是隐含狄利克雷分布(LDA),这是一种在多个文档(语料库)中搜寻主题的无监督学习算法。

参考:

https://zhuanlan.zhihu.com/p/44520176

https://towardsdatascience.com/probability-concepts-explained-maximum-likelihood-estimation-c7b4342fdbb1

https://towardsdatascience.com/probability-concepts-explained-bayesian-inference-for-parameter-estimation-90e8930e5348

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019/12/13 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
从最大似然估计开始,你需要打下的机器学习基石
选自Medium 作者:Jonny Brooks-Bartlett 机器之心编译 概率论是机器学习与深度学习的基础知识,很多形式化的分析都是以概率的形式进行讨论。而这些讨论或多或少都离不开最大似然估计,因为它是参数估计的基础之一,也是构建模型的基石。在本文中,我们从最大似然估计到贝叶斯推理详细地讨论了机器学习的概率论基石,并希望能为读者的预习与复习提供优秀的参考资源。 什么是参数? 在机器学习中,我们经常使用一个模型来描述生成观察数据的过程。例如,我们可以使用一个随机森林模型来分类客户是否会取消订阅服务(称
机器之心
2018/05/10
1K0
概率论之概念解析:用贝叶斯推断进行参数估计
【导读】既昨天推出概率论之概念解析:极大似然估计,大家反响热烈,今天专知推出其续集——贝叶斯推断进行参数估计。本文是数据科学家Jonny Brooks-Bartlett概率论基础概念系列博客中的“贝叶斯推断”一章,主要讲解了使用贝叶斯定理进行参数估计的细节。作者使用简单的例子、通俗的语言讲解枯燥的数学公式,博文内容覆盖了贝叶斯定理、贝叶斯公式、共轭先验、贝叶斯推断进行参数估计。这是一篇非常不错的贝叶斯入门文章,如果你对贝叶斯基础有所欠缺,相信你一定能从本文获益良多。 概率论基础概念系列博客——概率论之概念解
WZEARW
2018/04/12
4.4K0
概率论之概念解析:用贝叶斯推断进行参数估计
极大似然估计和贝叶斯估计的联系(似然估计和最大似然估计)
项目github地址:bitcarmanlee easy-algorithm-interview-and-practice 欢迎大家star,留言,一起学习进步
全栈程序员站长
2022/07/25
1.1K0
极大似然估计和贝叶斯估计的联系(似然估计和最大似然估计)
贝叶斯估计、最大似然估计、最大后验概率估计
1. 引言 贝叶斯估计、最大似然估计(MLE)、最大后验概率估计(MAP)这几个概念在机器学习和深度学习中经常碰到,读文章的时候还感觉挺明白,但独立思考时经常会傻傻分不清楚(?),因此希望通过本文对其
Tyan
2019/05/25
1.3K0
什么是最大似然估计、最大后验估计以及贝叶斯参数估计
假如你有一个硬币。你把它投掷 3 次,出现了 3 次正面。下一次投掷硬币正面朝上的概率是多少? 这是一个从数据中估计参数的基础机器学习问题。在这种情况下,我们要从数据 D 中估算出正面朝上 h 的概率
小莹莹
2018/04/24
1.3K0
什么是最大似然估计、最大后验估计以及贝叶斯参数估计
入门 | 什么是最大似然估计、最大后验估计以及贝叶斯参数估计
选自Medium 作者:Akihiro Matsukawa 机器之心编译 参与:Geek.ai、刘晓坤 本文以简单的案例,解释了最大似然估计、最大后验估计以及贝叶斯参数估计的联系和区别。 假如你有一个
朱晓霞
2018/04/18
2.4K0
入门 | 什么是最大似然估计、最大后验估计以及贝叶斯参数估计
概率论--最大似然估计
最大似然估计(Maximum Likelihood Estimation,MLE)是一种常用的统计方法,用于从样本数据中估计模型参数。其核心思想是通过最大化观测数据出现的概率来找到最优的参数值。
用户11315985
2024/10/16
6510
概率论--最大似然估计
最大似然估计和最大后验估计
已知一组数据集 $D={x_1,x_2,…,x_n}$ 是独立地从概率分布 $P(x)$ 上采样生成的,且 $P(x)$ 具有确定的形式(如高斯分布,二项分布等)但参数 $\theta$ 未知。
故事尾音
2019/12/18
1.3K0
最大似然估计和最大后验估计
VAE 的前世今生:从最大似然估计到 EM 再到 VAE
变分自编码器(VAE)是当下最流行的生成模型系列之一,它可以被用来刻画数据的分布。经典的期望最大化(EM)算法旨在学习具有隐变量的模型。本质上,VAE 和 EM 都会迭代式地优化证据下界(ELBO),从而最大化观测数据的似然。本文旨在为  VAE 和 EM 提供一种统一的视角,让具有机器学习应用经验但缺乏统计学背景的读者最快地理解 EM 和 VAE。 论文链接(已收录于AI open):https://www.aminer.cn/pub/6180f4ee6750f8536d09ba5b 1 引言 我们往往
AI科技评论
2023/04/12
1.4K0
VAE 的前世今生:从最大似然估计到 EM 再到 VAE
[白话解析] 深入浅出 极大似然估计 & 极大后验概率估计
本文在少用数学公式的情况下,尽量仅依靠感性直觉的思考来讲解 极大似然估计 & 极大后验概率估计,并且从名著中找了几个实例给大家看看这两种估计如何应用 & 其非常有趣的特点。
罗西的思考
2020/09/07
1.9K0
概率和统计,最大似然估计(MLE),大后验概率估计(MAP)
概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。
zhangjiqun
2024/12/14
2750
概率和统计,最大似然估计(MLE),大后验概率估计(MAP)
专知主题链路知识推荐#4-机器学习中往往被忽视的贝叶斯参数估计方法
【导读】主题链路知识是我们专知的核心功能之一,为用户提供AI领域系统性的知识学习服务,一站式学习人工智能的知识,包含人工智能( 机器学习、自然语言处理、计算机视觉等)、大数据、编程语言、系统架构。使用请访问专知 进行主题搜索查看 - 桌面电脑访问www.zhuanzhi.ai, 手机端访问www.zhuanzhi.ai 或关注微信公众号后台回复" 专知"进入专知,搜索主题查看。今天给大家继续介绍我们独家整理的机器学习——贝叶斯参数估计方法。 这次介绍一下机器学习中常见的参数估计方法,这对推断模
WZEARW
2018/04/08
9170
专知主题链路知识推荐#4-机器学习中往往被忽视的贝叶斯参数估计方法
贝叶斯学习
贝叶斯学习(Baysian Learning)是基于贝叶斯定理的一个推断方法。其考虑的场景为:我们观测到一个数据集合 ,其服从条件分布 (我们称 为 模型分布),其中模型参数 是未知的(当看作是 的函数时, 也被称为 模型似然)。尽管 是未知的,但先验分布 往往是已知的,而我们要求解的便是 。
hotarugali
2022/04/25
1.4K0
【数据挖掘】主题模型的参数估计-最大似然估计(MLE)、MAP及贝叶斯估计
以PLSA和LDA为代表的文本主题模型是当今统计自然语言处理研究的热点问题。这类主题模型一般都是对文本的生成过程提出自己的概率图模型,然后利用观察到的语料数据对模型参数做估计。有了主题模型和相应的模型参数,我们可以有很多重要的应用,比如文本特征降维、文本主题分析等等。本文主要介绍文本分析的三类参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。 1、最大似然估计MLE 首先回顾一下贝叶斯公式 这个公式也称为逆概率公式,可以将后验概率转化为基于似然函数和先验概率的计算表达式,即
陆勤_数据人网
2018/02/27
1.5K0
【数据挖掘】主题模型的参数估计-最大似然估计(MLE)、MAP及贝叶斯估计
NLP面试-最大似然估计与贝叶斯估计的区别
全概率公式为概率论中的重要公式,它将对一复杂事件A的概率求解问题转化为了在不同情况下发生的简单事件的概率的求和问题。
致Great
2018/08/28
3.6K0
NLP面试-最大似然估计与贝叶斯估计的区别
频率学派还是贝叶斯学派?聊一聊机器学习中的MLE和MAP
作者:夏飞 Google | 软件工程师 量子位 已获授权编辑发布 转载请联系原作者 本文作者夏飞,清华大学计算机软件学士,卡内基梅隆大学人工智能硕士,现为谷歌软件工程师。 在这篇文章中,他探讨了机器
量子位
2018/03/22
2.1K0
频率学派还是贝叶斯学派?聊一聊机器学习中的MLE和MAP
入门 | 贝叶斯线性回归方法的解释和优点
选自TowardsDataScience 作者:William Koehrsen 机器之心编译 参与:Geek AI、刘晓坤 本文对比了频率线性回归和贝叶斯线性回归两种方法,并对后者进行了详细的介绍,分析了贝叶斯线性回归的优点和直观特征。 我认为贝叶斯学派和频率学派之间的纷争是「可远观而不可亵玩」的学术争论之一。与其热衷于站队,我认为同时学习这两种统计推断方法并且将它们应用到恰当的场景之下会更加富有成效。出于这种考虑,最近我努力学习和应用贝叶斯推断方法,补充学校课程所学的频率统计方法。 贝叶斯线性模型是我最
机器之心
2018/05/08
1.2K0
入门 | 贝叶斯线性回归方法的解释和优点
使用TensorFlow Probability实现最大似然估计
TensorFlow Probability是一个构建在TensorFlow之上的Python库。它将我们的概率模型与现代硬件(例如GPU)上的深度学习结合起来。
deephub
2023/02/01
8540
机器学习(3)之最大似然估计
关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 最大似然估计 上一篇(机器学习(2)之过拟合与欠拟合)中,我们详细的论述了模型容量以及由模型容量匹配问题所产生的过拟合和欠拟合问题。这一次,我们探讨哪些准则可以帮助我们从不同的模型中得到特定函数作为好的估计。其中,最常用的准则就是极大似然估计(maximum likelihood estimation,MLE)。(1821年首先由德国数学家C. F. Gauss提出,但是这个方法通常被
昱良
2018/04/04
1.1K0
机器学习(3)之最大似然估计
机器学习21:概率图--朴素贝叶斯模型
贝叶斯决策论是概率框架下实施决策的基本方法。朴素贝叶斯属于生成式模型,即先对联合分布P(x,c)建模,然后再由此获得后验概率P(c|x),朴素贝叶斯分类的是所有属性之间的依赖关系在不同类别上的分布。
用户5473628
2019/08/08
1.2K0
机器学习21:概率图--朴素贝叶斯模型
推荐阅读
相关推荐
从最大似然估计开始,你需要打下的机器学习基石
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档