算法入门（三） -- 概率论基础

万事可爱^

修改于 2025-02-07 14:06:23

3170

文章被收录于专栏：机器学习修仙之旅机器学习修仙之旅

概率知识是算法学习中较为重要的一环，下面我们就来回顾一下算法中需要用到的概率基础知识，以及他们的公式和分布图像。

一、随机事件、概率公理与条件概率

1.随机事件

定义：在随机试验中，可能出现也可能不出现，而在大量重复试验中具有某种规律性的事件叫做随机事件，简称事件。通常用大写字母

、

、

等表示。例如，抛一枚硬币，出现正面朝上是一个随机事件；掷一颗骰子，出现点数为也是一个随机事件。

在随机事件中，又有几类较为特殊的随机事件，接下来我们一起看一下这几类随机事件。

基本事件：随机试验中不能再分解成其他事件的最简单的事件。例如，掷骰子试验中，出现点数

、点数

、点数

、点数

、点数

、点数

都是基本事件。

必然事件：在一定条件下必然会发生的事件，用

表示。例如，掷骰子试验中，出现的点数小于

就是必然事件。

不可能事件：在一定条件下必然不会发生的事件，用

表示。例如，掷骰子试验中，出现的点数大于

就是不可能事件。

在随机试验中，有几个我们经常接触到的。例如抛一枚硬币，“正面朝上” 和 “反面朝上” 就是两个随机事件。随机事件是概率论的基本研究对象，在机器学习中，很多数据的生成或变化过程可以看作是随机事件的发生。比如在数据采样过程中，从总体中抽取一个样本就是一个随机事件，每次抽取的结果都具有不确定性；噪声的产生也可视为随机事件，例如图像中的噪声点，其出现的位置和强度是随机的，这使得图像数据具有一定的随机性。

2.概率公理

在概率事件中有以下几个公理我们需要了解一下：

非负性：对于任意事件

，

。这是概率的基本性质，保证了概率值的合理性，即任何事件发生的可能性不能为负。从直观上理解，如果一个事件的概率为负，那么就违背了我们对可能性的基本认知，因为事件发生的可能性最小为，表示不可能发生。

规范性：对于必然事件

，

。必然事件是指在试验中肯定会发生的事件，其概率为

，这为概率的取值范围设定了上限。例如在掷骰子试验中，“掷出的点数是

到

中的一个数” 就是必然事件，因为无论怎样掷骰子，这个事件一定会发生，所以其概率为

。

可列可加性：设

是两两互不相容的事件，则

P(\bigcup_{i=1}^{\infty }A_{i})=\sum_{i=1}^{\infty }P(A_{i})

。此公理是计算复杂事件概率的基础。例如在计算多个独立事件至少有一个发生的概率时，可以利用可列可加性将其转化为各个事件概率的和。比如在一个抽奖活动中，有三个奖项

、

、

，它们是两两互不相容的（即一个人不能同时获得多个奖项），那么一个人至少获得一个奖项的概率。

3.条件概率

定义：设

、

是两个事件，且

，则在

发生的条件下

发生的条件概率

。

例如，在一个装有

个红球和

个白球的袋子中，先取出一个球不放回，再取一个球。设

表示 “第二次取到红球”，

表示 “第一次取到白球”，那么

P(AB)=\frac{2}{5}\times \frac{3}{4}=\frac{3}{10}

，

，所以

。

条件概率在机器学习中有很多应用，如在贝叶斯分类算法中，通过条件概率来计算后验概率，从而确定数据属于不同类别的可能性。

例如在垃圾邮件分类中，设

表示 “邮件是垃圾邮件”，

表示 “邮件中包含特定关键词”，已知

（垃圾邮件的先验概率）、

（垃圾邮件中包含特定关键词的概率）和

（非垃圾邮件中包含特定关键词的概率），就可以利用贝叶斯公式

P(A|B)=\frac{P(B|A)P(A)}{P(B|A)P(A)+P(B|\bar{A})P(\bar{A})}

计算在邮件包含特定关键词的条件下，该邮件是垃圾邮件的概率

，进而对邮件进行分类。

二、离散型与连续型随机变量的分布（如伯努利分布、正态分布等）

1.离散型随机变量分布

离散型随机变量的分布描述了随机变量可能取到的值以及取每个值的概率。

1.1.伯努利分布

定义：是一种只有两种可能结果的单次随机试验，即 “成功” 与 “失败”，设成功的概率为

，失败的概率为

，随机变量

表示试验结果，

表示成功，

表示失败。

概率质量函数：

，其中

。

期望和方差：期望

，方差

。

举个栗子：在产品质量检测中，设

表示一个产品是否合格，合格记为

，不合格记为

。若某产品的合格率为

，即

，那么该产品的合格情况就服从

分布。在机器学习的二元分类场景里，如判断一封邮件是否为垃圾邮件，可将垃圾邮件标记为

，非垃圾邮件标记为

，模型预测结果可视为服从伯努利分布的随机变量，其预测正确的概率

反映了模型在这类二分类任务上的性能。

1.2.二项分布

定义：是

个独立的伯努利试验的和，设每次试验成功的概率为，失败的概率为

，随机变量

表示

次试验中成功的次数。

概率质量函数：

P(X=k)=C_{n}^{k}\textrm{}p^{k}(1-p)^{n-k}

，其中

，

是组合数。

期望和方差：期望

，方差

。

举个例子：进行

次抛硬币试验，每次抛硬币正面朝上的概率

，设

表示正面朝上的次数，则

。计算

P(X=5)=C_{10}^{5}\textrm{}(\frac{1}{2})^{5}(1-\frac{1}{2})^{10-5}=\frac{252}{1024}\approx 0.246

。在机器学习的模型训练评估中，若进行多次独立的训练实验，每次实验模型达到某个性能指标视为成功，成功概率为

，进行

次这样的实验后，成功次数

服从二项分布，通过二项分布可分析模型在多次实验中达到预期性能的概率分布，评估模型的稳定性与可靠性。

1.3.泊松分布

定义：用于描述在一定时间或空间内，某事件发生的次数的概率分布，通常在给定的时间或空间内，事件发生的平均次数为

。

概率质量函数：

P(X=k)=\frac{e^{-\lambda}\lambda ^{k}}{k!}]

，其中

，

是自然常数。

期望和方差：期望

，方差

。

举个例子：某交通路口在一个小时内通过的车辆数

，若平均每小时通过

辆车，即

，则

服从

分布。在机器学习的文本分析任务中，若统计一篇文档里某个特定词汇出现的次数，当满足泊松分布的条件时，例如在一篇较长的新闻报道中特定专业术语的出现次数，可利用泊松分布对其分布规律建模，有助于在文本分类、信息检索等任务中更好地理解文本特征，提升模型性能。

2.连续型随机变量分布

连续型随机变量的分布主要有以下几种常见类型：均匀分布、正态分布、指数分布、伽马分布、贝塔分布等，由于篇幅原因，我这们这里只讲解最常用的均匀分布、正态分布与指数分布。

2.1.正态分布

定义：对于随机变量

，其概率密度函数为

f(x)=\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x-\mu )^{2}}{2\sigma ^{2}}}(-\infty <x<+\infty )

，其中

为均值，确定了分布的中心位置；

为标准差，决定了分布的离散程度，则称

服从正态分布，记为

。正态分布又叫做高斯分布，其具有对称性，且图像呈钟形曲线。

特点：

概率密度函数的图像呈钟形，关于直线

对称，在

处达到最大值。

均值

决定了分布的中心位置，标准差

决定了分布的离散程度，

越大，曲线越扁平；

越小，曲线越陡峭。

举个例子：学生的考试成绩通常近似服从正态分布。假设某次数学考试，平均成绩

分，标准差

分，那么学生成绩

服从

分布。在机器学习中，许多自然现象的数据和测量误差数据也常呈正态分布。例如在图像处理中，图像的噪声值往往服从正态分布，在进行图像去噪算法设计时，可利用正态分布的特性对噪声进行建模和处理，以提高图像质量；在回归分析中，线性回归模型假设误差项服从正态分布，这有助于利用极大似然估计等方法对模型参数进行有效估计，提高模型的准确性和泛化能力。

2.2.均匀分布

定义：若随机变量

在区间

上取值，且其概率密度函数为

f(x)=\left\{\begin{matrix} \frac{1}{b-a}, a\leq x\leq b\\ 0, other \end{matrix}\right.

，则称

服从

区间上的均匀分布，记为

。该分布表示在给定区间内，随机变量取任何值的可能性相等。

特点：在区间

内，随机变量取值的概率是均匀的，即任何等长度的子区间内取值的概率相等。

举个例子：在一个抽奖活动中，抽奖箱里有编号从

到

的奖券，抽奖时随机抽取一张，设抽取的奖券编号为

，则

服从

分布。在机器学习的超参数调优过程中，有时会使用均匀分布来随机生成超参数的取值范围。例如在随机搜索算法中，对于学习率这一超参数，如果设定其在

区间内均匀取值，那么学习率这个超参数就可视为服从

分布的随机变量，通过在该区间内均匀采样不同的学习率值来训练模型，寻找最优超参数组合，提高模型性能。

2.3.指数分布

定义：若随机变量

的概率密度函数为

f(x)=\left\{\begin{matrix} \lambda e^{-\lambda x},x\geq0\\ 0,x< 0 \end{matrix}\right.

，其中

为参数，则称

服从指数分布，记为

。指数分布常用于描述独立随机事件发生的时间间隔，且具有无记忆性，即过去发生的事件对未来事件发生的概率没有影响。

特点：

具有无记忆性，即对于任意

，

，有

。

常用于描述独立随机事件发生的时间间隔，如顾客到达商店的时间间隔、设备的寿命等。

举个例子：某电子元件的寿命

服从指数分布，若其平均寿命为

年，即

，那么

。在机器学习的可靠性工程领域应用中，例如预测机器设备的故障时间间隔，如果故障时间间隔数据符合指数分布特征，就可以利用指数分布建立模型进行预测。通过对历史故障数据的分析估计

值，进而预测未来设备可能发生故障的时间，提前安排维护计划，降低设备故障带来的损失，提高整个系统的可靠性和运行效率。

三、期望、方差、协方差等统计量及其在数据特征分析中的意义

3.1.期望

在数据特征分析中的意义：

中心位置的度量：期望给出了数据的中心位置，是对数据集中趋势的一种描述。例如，在分析一组学生的考试成绩时，平均成绩就是成绩数据的期望，它能让我们大致了解学生的整体学习水平。
预测和估计：基于期望可以对未来的观测值进行预测和估计。例如，根据以往的销售数据计算出的日平均销售额，可用于预测未来的销售情况，为生产、库存管理等提供依据。

离散型随机变量：

定义：设离散型随机变量

的概率质量函数为

，则期望

。期望从本质上说是随机变量取值按照其概率的加权平均值，反映了随机变量的平均水平或中心趋势。

举个例子：考虑一个离散型随机变量

表示掷骰子的点数，

P(X=1)=P(X=2)=\cdots =P(X=6)=\frac{1}{6}

，则

E(X)=1\times \frac{1}{6}+2\times \frac{1}{6}+\cdots +6\times \frac{1}{6}=\frac{1+2+\cdots+6}{6}=\frac{21}{6}=3.5

。在机器学习的分类任务中，若模型对某一类别的预测概率为

，对应的类别标签为

，那么模型预测结果的期望

可以用来衡量模型在该类别上预测的平均倾向。例如在多分类图像识别任务中，对于“猫”“狗”“其他动物”三类，模型对每张图片预测属于各类别的概率，期望能反映出模型整体上对不同类别判断的平均偏向程度，帮助评估模型的预测性能。

连续型随机变量:

定义：设连续型随机变量

的概率密度函数为

，则期望

。它通过对整个实数轴上的

值与对应的概率密度函数

相乘后积分来计算，同样表示随机变量的平均取值

举个例子：设连续型随机变量

服从正态分布

，其概率密度函数为

f(x)=\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x-\mu )^{2}}{2\sigma ^{2}}}

，则

E(x)=\int_{-\infty }^{\infty }x\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x-\mu )^{2}}{2\sigma ^{2}}}dx=\mu

。在金融领域，若股票价格

在一段时间内可视为连续型随机变量且服从某种分布（如对数正态分布），其期望

可用于估计股票价格在该时期内的平均水平，投资者可据此制定投资策略，如判断股票是否被高估或低估；在机器学习的回归分析中，模型预测值与实际值之间误差的期望可衡量模型的偏差程度，如果误差期望不为

，说明模型存在系统性偏差，需要进一步调整模型结构或参数，以提高模型的准确性。

3.2.方差

方差的算术平方根

称为标准差。它衡量的是随机变量取值相对于其均值的离散程度。

在数据特征分析中的意义：

数据离散程度的度量：方差越大，说明数据越分散，即数据在均值周围的波动越大；方差越小，说明数据越集中在均值附近。例如，比较两个班级学生的考试成绩，方差小的班级成绩相对更稳定，学生之间的差距较小。
风险评估：在金融领域，方差常用于衡量投资收益的风险。例如，两种投资产品的预期收益相同，但方差不同，方差大的投资产品收益波动大，风险也就更高。

离散型随机变量：

定义：

Var(X)=E\left [ (X-E(X))^{2} \right ]=\sum_{i}^{}(x_{i}-E(X))^{2}p_{i}

。方差衡量了随机变量取值相对于期望的离散程度或波动程度，方差越大，说明随机变量的取值越分散，不确定性越高。

举个例子：对于伯努利分布

，

，则

。例如在一个二分类任务中，如判断用户是否会购买某产品（购买为

)，不购买为

），若购买概率

，则

。在机器学习中，方差可用于评估模型预测的稳定性。若一个模型对同一数据集进行多次预测，每次预测结果视为一个随机变量，方差小说明模型预测结果较为稳定，反之则说明模型对数据中的某些因素较为敏感，可能存在过拟合风险。在特征选择时，方差较小的离散型特征可能提供的信息较少，可考虑舍弃或进行特征工程处理，以减少特征维度，提高模型训练效率。

连续型随机变量：

定义：

Var(X)=\int_{-\infty }^{\infty }(X-E(X))^{2}f(x)dx

。它通过对随机变量与期望差值的平方在整个取值范围内加权积分来计算方差，反映了连续型随机变量取值的分散状况。

举个例子：对于正态分布

，

。例如在测量物体长度时，由于测量误差的存在，测量结果

可视为服从正态分布。若测量误差的标准差

厘米，则

平方厘米。在机器学习的数据可视化和预处理中，方差可帮助了解数据的分布范围和形态。如绘制一组连续型数据的直方图时，方差较大则直方图较宽且扁平，数据分布分散；方差较小则直方图窄而高，数据较为集中。在模型训练过程中，监测模型参数在不同训练批次中的方差变化，若方差持续增大，可能暗示模型出现过拟合，对训练数据过度拟合而导致泛化能力下降，需要采取正则化等措施来调整模型。