前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >算法入门(四) -- 让人泪流满面的统计学

算法入门(四) -- 让人泪流满面的统计学

作者头像
万事可爱^
修改2025-02-08 15:14:41
修改2025-02-08 15:14:41
1200
举报

统计学在机器学习中起着至关重要的作用,为机器学习算法的设计、训练、评估和优化提供了坚实的理论基础和实用的方法,所以在学习机器学习知识之前统计学是我们必须要了解和学习的。 一、样本与总体

在统计学中,样本与总体是两个基本的概念,它们相互关联又有区别,接下来我们就来了解一下样本与总体。

1.总体

定义:总体是指研究对象的整体集合,它包含了所研究现象的全部个体或元素。总体可以是有限的,例如一个班级的所有学生、一家工厂在某一时期生产的所有产品;也可以是无限的,如大海里的所有鱼等。

特征:

  • 同质性:总体中的每个个体都具有某种共同的性质或特征,这是构成总体的基础。
  • 大量性:总体通常包含大量的个体,这样才能更好地反映出所研究现象的规律性。
  • 差异性:尽管总体中的个体具有同质性,但在某些方面也存在差异,这些差异是统计研究的重要内容。

2.样本

定义:样本是从总体中抽取的一部分个体所组成的集合,用于代表和推断总体的特征。例如,为了了解一个城市居民的收入水平,我们抽取了1000户家庭进行调查,这1000户家庭就构成了一个样本。

特征:

  • 代表性:样本要尽可能地代表总体的特征,这样才能通过对样本的研究来推断总体的情况。
  • 随机性:样本的抽取通常是随机进行的,以避免人为因素的干扰,保证样本的客观性和公正性。
  • 独立性:样本中的各个个体之间应相互独立,即一个个体的取值不会影响其他个体的取值,这样可以保证样本的有效性。

3.样本与总体的关系

  • 样本来源于总体:样本是从总体中按照一定的抽样方法抽取出来的,是总体的一个子集。
  • 样本用于推断总体:通过对样本的观察、测量和分析,获取样本的统计特征,如样本均值、样本方差等,然后利用这些样本统计量来推断总体的相应参数,如总体均值、总体方差等。
  • 总体决定样本的性质和大小:总体的特征和规模会影响样本的抽取方法、样本容量的大小以及样本的代表性等。

了解完总体和样本的概念接下来我们看一下在机器学习中运用较为广泛的统计学推断方法。

二、统计推断方法

1.参数估计

参数估计是统计学中的一个重要内容,指根据样本数据对总体分布中的未知参数进行估计,常用的方法有以下两种,我们来一起了解一下。

1.1.点估计

定义:用样本统计量来估计总体参数。

例如,用样本均值

\bar{x}
\bar{x}

估计总体均值

\mu
\mu

,用样本方差

s^{2}
s^{2}

估计总体方差

\sigma ^{2}
\sigma ^{2}

。设从总体中抽取的样本为

x_{1},x_{2},\cdots ,x_{n}
x_{1},x_{2},\cdots ,x_{n}

,则样本均值

\bar{x}=\frac{1}{n}\sum_{i}^{n}x_{i}
\bar{x}=\frac{1}{n}\sum_{i}^{n}x_{i}

,样本方差

s^{2}=\frac{1}{n-1}\sum_{i-1}^{n}(x_{i}-\bar{x})^{2}
s^{2}=\frac{1}{n-1}\sum_{i-1}^{n}(x_{i}-\bar{x})^{2}

。比如,要估计某学校学生的平均身高,从全校学生中抽取一个样本,计算出样本的平均身高作为全校学生平均身高的估计值,这就是点估计。

评价指标:常用的评价指标有无偏性、有效性和一致性。无偏性是指估计量的期望值等于被估计的总体参数,如样本均值

\bar{x}
\bar{x}

是总体均值

\mu
\mu

的无偏估计,即

E(\bar{x})=\mu
E(\bar{x})=\mu

;有效性是指在所有无偏估计量中,方差最小的估计量最有效;一致性是指随着样本容量的增大,估计量越来越接近总体参数。

1.2.区间估计

在学习区间估计之前我们先来了解两个概念,置信区间与置信水平:

置信水平:置信水平是指在多次重复抽样的情况下,所构造的置信区间包含总体参数真实值的概率。通常用

1-\alpha
1-\alpha

来表示,其中

\alpha
\alpha

是一个预先设定的小概率值,一般取值在

0
0

1
1

之间,如

\alpha =0.05
\alpha =0.05

时,置信水平为

1-0.05=0.95
1-0.05=0.95

,即95%。

意义:它反映了我们对所构造的置信区间包含总体参数真实值的信心程度。置信水平越高,我们就越有信心认为所得到的置信区间包含了总体参数的真实值,但相应的置信区间也会越宽。

置信区间:置信区间是在一定的置信水平下,根据样本数据所构造的一个区间估计,用于估计总体参数的可能取值范围。例如,对于总体均值

\mu
\mu

的置信区间,可能表示为

(\bar{x}-z_{\frac{\alpha }{2}}\frac{\sigma }{\sqrt{n}},\bar{x}+z_{\frac{\alpha }{2}}\frac{\sigma }{\sqrt{n}})
(\bar{x}-z_{\frac{\alpha }{2}}\frac{\sigma }{\sqrt{n}},\bar{x}+z_{\frac{\alpha }{2}}\frac{\sigma }{\sqrt{n}})

,其中

\bar{x}
\bar{x}

是样本均值,

z_{\frac{\alpha }{2}}
z_{\frac{\alpha }{2}}

是标准正态分布的分位数,

\sigma
\sigma

是总体标准差,

n
n

是样本容量。

意义:置信区间提供了一种对总体参数的不确定性的量化方式,它给出了总体参数可能落在的一个范围,而不是一个确切的点估计。通过置信区间,我们可以在一定程度上了解样本估计的准确性和可靠性,以及总体参数的可能取值范围。

两者的关系:

置信水平越高,置信区间越宽;置信水平越低,置信区间越窄。这是因为要提高置信水平,就需要增加区间包含总体参数真实值的概率,所以区间范围要扩大。在样本容量固定的情况下,我们需要在置信水平和置信区间的宽度之间进行权衡。如果想要更高的置信水平,就不得不接受更宽的置信区间,这可能会导致估计的精度降低;而如果想要更窄的置信区间以提高估计的精度,就可能需要降低置信水平。

在了解了置信区间与置信水平之后我们再来看区间估计:

定义:根据样本统计量构造一个区间,使得总体参数以一定的概率落在这个区间内。例如,对于总体均值

\mu
\mu

的区间估计,在总体方差

\sigma ^{2}
\sigma ^{2}

已知的情况下,当样本量为

n
n

,样本均值为

\bar{x}
\bar{x}

时,构造的置信区间为

\bar{x}+z_{\frac{\alpha }{2}}\frac{\sigma }{\sqrt{n}}
\bar{x}+z_{\frac{\alpha }{2}}\frac{\sigma }{\sqrt{n}}

,其中

z_{\frac{\alpha }{2}}
z_{\frac{\alpha }{2}}

是标准正态分布的分位数,对应置信水平为

1-\alpha
1-\alpha

。比如,对于某产品的使用寿命,抽取样本计算均值后,构建一个区间估计,如

(1000,1200)
(1000,1200)

小时,并有95%的把握认为总体均值(即该产品的平均使用寿命)在这个区间内。

2.假设检验

定义:先对总体参数提出一个假设,然后根据样本数据来判断这个假设是否成立。假设分为原假设

H_{0}
H_{0}

和备择假设

H_{1}
H_{1}

。例如,原假设

H_{0}:\mu =\mu _{0}
H_{0}:\mu =\mu _{0}

,备择假设

H_{1}:\mu \neq \mu _{0}
H_{1}:\mu \neq \mu _{0}

(双侧检验),或者

H_{1}:\mu > \mu _{0}
H_{1}:\mu > \mu _{0}

(右侧检验)、

H_{1}:\mu < \mu _{0}
H_{1}:\mu < \mu _{0}

(左侧检验)。以判断一种新药是否有效为例,原假设可以是新药与旧药疗效无差异,备择假设是新药比旧药疗效好(右侧检验)。

检验统计量与拒绝域:根据假设检验的类型和已知条件选择合适的检验统计量。如对于总体均值的检验,在总体方差已知时,使用

z=\frac{\bar{x}-\mu _{0}}{\sigma /\sqrt{n}}
z=\frac{\bar{x}-\mu _{0}}{\sigma /\sqrt{n}}

作为检验统计量;总体方差未知时,使用

z=\frac{\bar{x}-\mu _{0}}{s /\sqrt{n}}
z=\frac{\bar{x}-\mu _{0}}{s /\sqrt{n}}

(自由度为

n-1
n-1

)。拒绝域是根据检验统计量的分布和显著性水平\(\alpha\)确定的区域,当检验统计量落入拒绝域时,拒绝原假设。例如,在双侧

z
z

检验中,若

\alpha =0.05
\alpha =0.05

,则拒绝域为

z< -z_{\frac{\alpha }{2}}
z< -z_{\frac{\alpha }{2}}

z> z_{\frac{\alpha }{2}}
z> z_{\frac{\alpha }{2}}

,其中

z_{\frac{\alpha }{2}}=1.96
z_{\frac{\alpha }{2}}=1.96

三、常用统计检验在机器学习模型评估中的应用(如 t 检验、F 检验)

1.t 检验

1.1.基本原理
  • t 检验的基本思想是基于 t 分布,通过比较样本均值与总体均值之间的差异,或者比较两个样本均值之间的差异,来判断这种差异是否是由随机误差引起的,还是由于总体均值本身存在差异。
  • 在进行 t 检验时,首先需要提出原假设和备择假设,然后根据样本数据计算出 t 统计量的值,再根据 t 分布的概率密度函数,确定在原假设成立的情况下,得到当前 t 统计量值或更极端值的概率,即 p 值。最后,根据设定的显著性水平 α,判断是否拒绝原假设
1.2.在模型评估中的应用场景

常用于比较两个模型在同一数据集上的性能差异是否显著。例如,比较两个不同的线性回归模型对房价预测的准确性,分别在相同的训练集和测试集上进行训练和评估,得到两个模型的均方误差

(MSE)
(MSE)

或平均绝对误差

(MAE)
(MAE)

等指标。设模型

A
A

的误差指标为

e_{A}
e_{A}

,模型

B
B

的误差指标为

e_{B}
e_{B}

,通过对两个样本(即两个模型的误差样本)进行

t
t

检验,判断它们是否来自均值相同的总体,从而确定两个模型的性能差异是否具有统计学意义。如果

t
t

检验的结果拒绝原假设(即两个模型的误差均值无差异的假设),则说明两个模型的性能存在显著差异,我们可以选择性能更好的模型。

1.3.具体计算与判断方法

假设两个样本分别为

x_{1},x_{2},\cdots ,x_{n}
x_{1},x_{2},\cdots ,x_{n}

y_{1},y_{2},\cdots ,y_{m}
y_{1},y_{2},\cdots ,y_{m}

,首先计算两个样本的均值

\bar{x}
\bar{x}

\bar{y}
\bar{y}

,以及样本方差

s_{x}^{2}
s_{x}^{2}

s_{y}^{2}
s_{y}^{2}

,然后计算

t
t

统计量:

t=\frac{\bar{x}-\bar{y}}{\frac{s_{x}^{2}}{n}+\frac{s_{y}^{2}}{m}}
t=\frac{\bar{x}-\bar{y}}{\frac{s_{x}^{2}}{n}+\frac{s_{y}^{2}}{m}}

,自由度为

df=\frac{(\frac{s_{x}^{2}}{n}+\frac{s_{y}^{2}}{m})^{2}}{\frac{(s_{x}^{2}/n)^{2}}{n-1}+\frac{(s_{y}^{2}/m)^{2}}{m-1}}
df=\frac{(\frac{s_{x}^{2}}{n}+\frac{s_{y}^{2}}{m})^{2}}{\frac{(s_{x}^{2}/n)^{2}}{n-1}+\frac{(s_{y}^{2}/m)^{2}}{m-1}}

。根据给定的显著性水平

\alpha
\alpha

和自由度,查找

t
t

分布表得到临界值

t_{\alpha/2}
t_{\alpha/2}

,如果

t>\left | t_{\alpha /2} \right |
t>\left | t_{\alpha /2} \right |

,则拒绝原假设,认为两个模型性能有显著差异。

2.F 检验

2.1.基本原理
  • F 检验的核心是基于 F 分布,通过比较两个方差的比值来进行统计推断。若两组数据的方差相等,那么它们方差的比值应接近 1;若方差不相等,该比值会偏离 1。通过计算实际的 F 统计量,并与给定显著性水平下的 F 分布临界值进行比较,来判断方差是否存在显著差异,进而对总体的均值、回归方程的显著性等做出推断。
2.2.在模型评估中的应用场景

主要用于比较多个模型的拟合优度或者检验模型中某些变量的显著性。例如,在多元线性回归模型中,判断添加一组新的特征变量后,模型的拟合效果是否有显著提升。设有两个模型,一个是包含较少特征的基础模型,其残差平方和为

SSE_{1}
SSE_{1}

,自由度为

df_{1}
df_{1}

;另一个是包含更多特征的扩展模型,其残差平方和为

SSE_{2}
SSE_{2}

,自由度为

df_{2}
df_{2}

。通过

F
F

检验来判断添加的特征是否对模型有显著贡献,即判断两个模型的拟合效果差异是否显著。

2.3.具体计算与判断方法

计算

F
F

统计量:

F=\frac{SSE_{1}-SSE_{2}/(df_{1}-df_{2})}{SSE_{2}-df_{2}}
F=\frac{SSE_{1}-SSE_{2}/(df_{1}-df_{2})}{SSE_{2}-df_{2}}

,分子自由度为

df_{1}-df_{2}
df_{1}-df_{2}

,分母自由度为

df_{2}
df_{2}

。根据给定的显著性水平

\alpha
\alpha

,查找

F
F

分布表得到临界值

F_{\alpha }
F_{\alpha }

,如果

F>F_{\alpha }
F>F_{\alpha }

,则拒绝原假设,认为扩展模型的拟合效果显著优于基础模型,即新添加的特征是有意义的;否则,不能拒绝原假设,说明新添加的特征对模型拟合效果提升不明显,可能考虑将其从模型中剔除,以简化模型并避免过拟合。

到这里基础数学知识的学习就告一段落了,从下一章开始就正式进入机器学习的世界,在这里也恭喜各位道友晋升筑基大圆满,希望与诸位道友一起共勉。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-12-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.总体
  • 2.样本
  • 3.样本与总体的关系
  • 二、统计推断方法
    • 1.参数估计
      • 1.1.点估计
      • 1.2.区间估计
    • 2.假设检验
  • 三、常用统计检验在机器学习模型评估中的应用(如 t 检验、F 检验)
    • 1.t 检验
      • 1.1.基本原理
      • 1.2.在模型评估中的应用场景
      • 1.3.具体计算与判断方法
    • 2.F 检验
      • 2.1.基本原理
      • 2.2.在模型评估中的应用场景
      • 2.3.具体计算与判断方法
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档