统计学在机器学习中起着至关重要的作用,为机器学习算法的设计、训练、评估和优化提供了坚实的理论基础和实用的方法,所以在学习机器学习知识之前统计学是我们必须要了解和学习的。 一、样本与总体
在统计学中,样本与总体是两个基本的概念,它们相互关联又有区别,接下来我们就来了解一下样本与总体。
定义:总体是指研究对象的整体集合,它包含了所研究现象的全部个体或元素。总体可以是有限的,例如一个班级的所有学生、一家工厂在某一时期生产的所有产品;也可以是无限的,如大海里的所有鱼等。
特征:
定义:样本是从总体中抽取的一部分个体所组成的集合,用于代表和推断总体的特征。例如,为了了解一个城市居民的收入水平,我们抽取了1000户家庭进行调查,这1000户家庭就构成了一个样本。
特征:
了解完总体和样本的概念接下来我们看一下在机器学习中运用较为广泛的统计学推断方法。
参数估计是统计学中的一个重要内容,指根据样本数据对总体分布中的未知参数进行估计,常用的方法有以下两种,我们来一起了解一下。
定义:用样本统计量来估计总体参数。
例如,用样本均值
估计总体均值
,用样本方差
估计总体方差
。设从总体中抽取的样本为
,则样本均值
,样本方差
。比如,要估计某学校学生的平均身高,从全校学生中抽取一个样本,计算出样本的平均身高作为全校学生平均身高的估计值,这就是点估计。
评价指标:常用的评价指标有无偏性、有效性和一致性。无偏性是指估计量的期望值等于被估计的总体参数,如样本均值
是总体均值
的无偏估计,即
;有效性是指在所有无偏估计量中,方差最小的估计量最有效;一致性是指随着样本容量的增大,估计量越来越接近总体参数。
在学习区间估计之前我们先来了解两个概念,置信区间与置信水平:
置信水平:置信水平是指在多次重复抽样的情况下,所构造的置信区间包含总体参数真实值的概率。通常用
来表示,其中
是一个预先设定的小概率值,一般取值在
到
之间,如
时,置信水平为
,即95%。
意义:它反映了我们对所构造的置信区间包含总体参数真实值的信心程度。置信水平越高,我们就越有信心认为所得到的置信区间包含了总体参数的真实值,但相应的置信区间也会越宽。
置信区间:置信区间是在一定的置信水平下,根据样本数据所构造的一个区间估计,用于估计总体参数的可能取值范围。例如,对于总体均值
的置信区间,可能表示为
,其中
是样本均值,
是标准正态分布的分位数,
是总体标准差,
是样本容量。
意义:置信区间提供了一种对总体参数的不确定性的量化方式,它给出了总体参数可能落在的一个范围,而不是一个确切的点估计。通过置信区间,我们可以在一定程度上了解样本估计的准确性和可靠性,以及总体参数的可能取值范围。
两者的关系:
置信水平越高,置信区间越宽;置信水平越低,置信区间越窄。这是因为要提高置信水平,就需要增加区间包含总体参数真实值的概率,所以区间范围要扩大。在样本容量固定的情况下,我们需要在置信水平和置信区间的宽度之间进行权衡。如果想要更高的置信水平,就不得不接受更宽的置信区间,这可能会导致估计的精度降低;而如果想要更窄的置信区间以提高估计的精度,就可能需要降低置信水平。
在了解了置信区间与置信水平之后我们再来看区间估计:
定义:根据样本统计量构造一个区间,使得总体参数以一定的概率落在这个区间内。例如,对于总体均值
的区间估计,在总体方差
已知的情况下,当样本量为
,样本均值为
时,构造的置信区间为
,其中
是标准正态分布的分位数,对应置信水平为
。比如,对于某产品的使用寿命,抽取样本计算均值后,构建一个区间估计,如
小时,并有95%的把握认为总体均值(即该产品的平均使用寿命)在这个区间内。
定义:先对总体参数提出一个假设,然后根据样本数据来判断这个假设是否成立。假设分为原假设
和备择假设
。例如,原假设
,备择假设
(双侧检验),或者
(右侧检验)、
(左侧检验)。以判断一种新药是否有效为例,原假设可以是新药与旧药疗效无差异,备择假设是新药比旧药疗效好(右侧检验)。
检验统计量与拒绝域:根据假设检验的类型和已知条件选择合适的检验统计量。如对于总体均值的检验,在总体方差已知时,使用
作为检验统计量;总体方差未知时,使用
(自由度为
)。拒绝域是根据检验统计量的分布和显著性水平\(\alpha\)确定的区域,当检验统计量落入拒绝域时,拒绝原假设。例如,在双侧
检验中,若
,则拒绝域为
或
,其中
。
常用于比较两个模型在同一数据集上的性能差异是否显著。例如,比较两个不同的线性回归模型对房价预测的准确性,分别在相同的训练集和测试集上进行训练和评估,得到两个模型的均方误差
或平均绝对误差
等指标。设模型
的误差指标为
,模型
的误差指标为
,通过对两个样本(即两个模型的误差样本)进行
检验,判断它们是否来自均值相同的总体,从而确定两个模型的性能差异是否具有统计学意义。如果
检验的结果拒绝原假设(即两个模型的误差均值无差异的假设),则说明两个模型的性能存在显著差异,我们可以选择性能更好的模型。
假设两个样本分别为
和
,首先计算两个样本的均值
和
,以及样本方差
和
,然后计算
统计量:
,自由度为
。根据给定的显著性水平
和自由度,查找
分布表得到临界值
,如果
,则拒绝原假设,认为两个模型性能有显著差异。
主要用于比较多个模型的拟合优度或者检验模型中某些变量的显著性。例如,在多元线性回归模型中,判断添加一组新的特征变量后,模型的拟合效果是否有显著提升。设有两个模型,一个是包含较少特征的基础模型,其残差平方和为
,自由度为
;另一个是包含更多特征的扩展模型,其残差平方和为
,自由度为
。通过
检验来判断添加的特征是否对模型有显著贡献,即判断两个模型的拟合效果差异是否显著。
计算
统计量:
,分子自由度为
,分母自由度为
。根据给定的显著性水平
,查找
分布表得到临界值
,如果
,则拒绝原假设,认为扩展模型的拟合效果显著优于基础模型,即新添加的特征是有意义的;否则,不能拒绝原假设,说明新添加的特征对模型拟合效果提升不明显,可能考虑将其从模型中剔除,以简化模型并避免过拟合。
到这里基础数学知识的学习就告一段落了,从下一章开始就正式进入机器学习的世界,在这里也恭喜各位道友晋升筑基大圆满,希望与诸位道友一起共勉。