首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【剑指Offer】机器学习面试题(1)

knn算法需要事先已有标注好的数据,当你需要对未标注的数据进行分类时,统计它附近最近的k个样本,将其划分为样本数最多的类别中。...准确率指的是:正样本被预测为正所占所有预测为正样本数的比例 - 预测正 预测负 真实正 TP FN 真实负 FP TN ? Q6: 什么是贝叶斯定理,它是如何使用在机器学习中的?...概率和似然都是指可能性,但在统计学中,概率和似然有截然不同的用法。概率描述了已知参数时的随机变量的输出结果;似然则用来描述已知随机变量输出结果时,未知参数的可能取值。...判别模型求解的思路是:条件分布——>模型参数后验概率最大——->(似然函数\cdot 参数先验)最大——->最大似然 生成模型的求解思路是:联合分布——->求解类别先验概率和类别条件概率 常见的生成方法有混合高斯模型...核技巧使用核函数,确保在高维空间不需要明确计算点的坐标,而是计算数据的特征空间中的内积。这使其具有一个很有用的属性:更容易的计算高维空间中点的坐标。

60920

等渗回归和PAVA算法

同方差的正态误差 像其他线性模型一样,我们可以假定这种回归类型中的误差是同方差的。换句话说,所有误差将具有有限的方差。由于误差不依赖于预测值 xi,我们可以制定一个可以有效拟合数据的线性模型。...因此,在拟合数据时,如果算法发现违反此单调性约束的点,则该点将与相邻的x值合并在一起,以形成我们之前考虑的块或单调序列。 很酷的是,单调序列或块中的所有x值都将具有相同的y值。...负对数似然 你一定听说过线性回归中的最大似然估计及其最终如何给出最佳拟合线。...通常,我们尝试使似然函数最大化,但是如果我们取似然函数的对数并将整个表达式乘以-1,则得到的是负对数似然,它会最小化而不是因为-1而最大化。因此,基本上,我们通过最小化来最大化。 ?...求解该方程式将为我们提供负对数似然函数的最小值,从而最终使可能性最大化,从而确保与数据的最佳拟合。 请注意,除了对数似然函数中两个已经存在的术语之外,又增加了一项。

3.8K21
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    神经网络与深度学习(4):改进神经网络的学习方法

    公式(2) 由公式(1)(2),我们看到柔性最大值层的输出是一些相加为1正数的集合。换言之,柔性最大值层的输出可以被看做是一个概率分布。 在很多问题中,使用softmax是很方便的。...事实上,把一个具有对数似然代价的柔性最大值输出层,看作与一个具有交叉熵代价的S型输出层非常相似,这是很有用的。 3....应该使用一个具有交叉熵代价的S 型输出层,还是一个具有对数似然代价的柔性最大值输出层呢? 实际上,在很多应用场景中,这两种方式的效果都不错。...柔性最大值加上对数似然的组合更加适用于那些需要将输出激活值解释为概率的场景。 过度拟合(Overfitting) 1....正则化的其他技术 (1)L1 规范化:是在未规范化的代价函数上加上一个权重绝对值的和。

    74410

    最大似然估计(Maximum Likelihood Estimation) - 机器学习基础

    最小化KL散度恰恰对应于最小化分布之间的交叉熵。很多作者会对伯努利分布和softmax分布的负log似然使用交叉熵这个术语,这实际上是错误使用。...这样我就得到了不管是最大化似然还是最小化KL散度都是在得到最优的θ\pmb{\theta}θθθ。最大似然这样就变成了最小化负log似然(NLL),或者等价的,交叉熵的最小化。...把最大似然看作是KL散度的最小化是非常有帮助的,因为KL散度有一个已知的最小值0,而负log似然实际上在x\pmb{x}xxx是实数值时可以是负的。...在以下两个条件下,最大似然估计器具有一致性(consistency)的性质: ?...因为一致性和高效性,最大似然通常是使用机器学习的首选估计器。当样本数量足够小以至于会产生过拟合时,可以采用诸如权重衰减等正则策略来得到一个具有更小方差的最大似然的有偏版本,尤其是在训练数据受限时。

    2.6K20

    【数据挖掘】贝叶斯公式在垃圾邮件过滤中的应用 ( 先验概率 | 似然概率 | 后验概率 )

    贝叶斯方法 步骤 3 : 比较假设的概率 VI . 先验概率 P(H_1) 和 P(H_0) VII . 似然概率 P(D|H_1) 和 P(D|H_0) I ....引入贝叶斯公式 : ① 逆向概率 ( 似然概率 | 条件概率 ) : 收到垃圾邮件后 , 该邮件是 D 的概率 ; 这个概率可以由训练学习得到 , 数据量足够大 , 是可以知道的 ; ② 先验概率...引入贝叶斯公式 : ① 逆向概率 ( 似然概率 | 条件概率 ) : 收到正常邮件 H_1 后 , 该邮件是 D 的概率 ; 这个概率可以由训练学习得到 , 数据量足够大 , 是可以知道的 ;...获取这两个概率 : 从系统后台服务器中的邮件库中获取垃圾邮件 和 正常邮件比例即可 ; VII . 似然概率 P(D|H_1) 和 P(D|H_0) ---- 1 ....P(D|H_0) 概率 : 表示收到垃圾邮件时 , 该邮是 D 邮件的概率 , 即具有 D 邮件的特征 ; 需要在当前邮件库中找到具有该邮件 D 特征的邮件出现的概率 ;

    1.2K10

    深入广义线性模型:分类和回归

    直接使用似然函数优化是比较困难的,相反,我们将使用和似然函数相同的maxima和minima的对数似然函数。即可以最大化对数似然或最小化负对数似然。...现在,我们可以把先验概率放在权重上,使w的后验分布最大化,而不是y的似然值。 ?...图显示了MAP方法的流程 在上面的公式中,我们定义权重w的先验是零均值,单位方差的高斯分布,以及使用负对数后验分布来进行损失函数的求解。在这种情况下,w的先验分布试图保持其平均值为0的权重值。...如果我们把拉普拉斯分布作为先验,则正则化项将是权重 w(L1正则化 - Lasso)的1-范数。 为了更好地说明正则化效果,我会举一个例子。假设我们有一个具有特征[2,1]和输出3的数据点。...因此,它需要被归一化,为此我们使用softmax函数。 ? 再次,我们使用负对数似然来定义损失函数,它被称为交叉熵损失函数。

    1.9K60

    基于逻辑回归的分类概率建模

    在建立逻辑回归模型时,我们首先定义最大似然函数L,假设数据集中每个样本都是相互独立的,公式为: 在实践中中,很容易最大化该方程的自然对数,故定义对数似然函数: 使用梯度上升等算法优化这个对数似然函数...另一个选择是改写对数似然函数作为代价函数J,用梯度下降函数最小化代价函数。L函数越趋近于1,则越拟合,所以对数似然函数越趋近于0(为负),则越拟合,因此J函数越趋近于0(为正),越小越拟合。...预测概率可以通过阈值函数简单的转化为二元输出 等同于下面的结果 学习逻辑代价函数的权重 学习了如何使用逻辑回归模型来预测概率和分类标签,现在来探究一下如何拟合模型的参数。...在建立逻辑回归模型时,我们首先定义最大似然函数L,假设数据集中每个样本都是相互独立的,公式为: 在实践中中,很容易最大化该方程的自然对数,故定义对数似然函数: 使用梯度上升等算法优化这个对数似然函数...另一个选择是改写对数似然函数作为代价函数J,用梯度下降函数最小化代价函数。L函数越趋近于1,则越拟合,所以对数似然函数越趋近于0(为负),则越拟合,因此J函数越趋近于0(为正),越小越拟合。

    22520

    《deep learning》学习笔记(5)——机器学习基础

    在我们权重衰减的示例中,通过在最小化的目标中额外增加一项,我们明确地表示了偏好权重较小的线性函数。有很多其他方法隐式或显式地表示对不同解的偏好。...在图5.2所示的多项式回归示例中,有一个超参数:多项式的次数,作为容量超参数。控制权重衰减程度的 λ 是另一个超参数。 验证集(validation set):用于挑选超参数的数据子集。...但是对于相同的最优 w,这两个准则有着不同的值。这验证了MSE可以用于最大似然估计。正如我们将看到的,最大似然估计有几个理想的性质。...5.5.2 最大似然的性质 统计效率通常用于有参情况(parametric case)的研究中(例如线性回归)。有参情况中我们的目标是估计参数值(假设有可能确定真实参数),而不是函数值。...最大似然估计优势:1、当样本数目 m → ∞ 时,就收敛率而言是最好的渐近估计。

    69430

    损失函数调整,正则化,Softmax , SVM交叉熵,极大似然估计

    从概率角度来解释,我们最小化正确类的负对数似然,这可以解释为执行最大似然估计(MLE),具体内容见第五模块——极大似然估计。...这种方法有一个很好的特点就是我们能够 解释在完整损失函数中的正则化项R(W)来自一个高斯先验权重矩阵W,在这个权重矩阵中,我们正在执行最大后验(MAP)估计,这里选用log函数的原理是交叉熵,想要深究的读者可以参考...当然了,概率密度函数的选取很重要,模型正确,在样本区域无穷时,我们会得到较准确的估计值。最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。...在神经网络中 ,极大似然估计求得的目标参数值是权重矩阵W,类条件概率为(与交叉熵对应起来): 求解极大似然函数步骤: ML估计:求使得出现该组样本的概率最大的θ值。...3、未知参数有多个(θ为向量) 则θ可表示为具有S个分量的未知向量: 记梯度算子: 若似然函数满足连续可导的条件,则最大似然估计量就是如下方程的解。

    21910

    机器学习 学习笔记(20)深度前馈网络

    使用最大似然学习条件分布 大多数线代的神经网络使用最大似然来训练,这意味着代价函数就是负的对数似然,它与训练数据和模型分布间的交叉熵等价。这个代价函数表示为: ?...这在很多情况下都会发生,因为用于产生隐藏单元或者输出单元的输出的激活函数会饱和。负的对数似然帮助在很多模型中避免这个问题。...都是不重要的。负对数似然代价函数总是强烈的惩罚最活跃的不正确预测。如果正确答案已经具有了softmax的最大输入,那么 ? 项和 ? 项将大致抵消。...未正则化的最大似然会驱动模型去学习一些参数,而这些参数会驱动softmax函数来预测在训练集中观察到的每个结果的比率: ?...在实践中,我们并不知道是那个组件产生了观测数据,负对数似然表达式将每个样本对每个组件的贡献进行赋权,权重的大小由相应的组件产生这个样本的概率来决定。 (3)协方差 ?

    1.9K40

    机器学习&深度学习的算法概览

    分类器的判别函数为: 在实现贝叶斯分类器时,需要知道每个类的条件概率分布p(x|y)即先验概率。一般假设样本服从正态分布。训练时确定先验概率分布的参数,一般用最大似然估计,即最大化对数似然函数。...EM算法 EM算法是一种迭代法,其目标是求解似然函数或后验概率的极值,而样本中具有无法观测的隐含变量。因为隐变量的存在,我们无法直接通过最大化似然函数来确定参数的值。...U的列为AAT的特征向量,V的列为AT A的特征向量。 10.最大似然估计 有些应用中已知样本服从的概率分布,但是要估计分布函数的参数 ,确定这些参数常用的一种方法是最大似然估计。...最大似然估计构造一个似然函数,通过让似然函数最大化,求解出 。最大似然估计的直观解释是,寻求一组参数,使得给定的样本集出现的概率最大。...这就是求解如下最优化问题: 乘积求导不易处理,因此我们对该函数取对数,得到对数似然函数: 最后要求解的问题为: 最大似然估计在机器学习中的典型应用包括logistic回归,贝叶斯分类器,隐马尔科夫模型等

    65320

    【收藏】机器学习与深度学习核心知识点总结

    10.最大似然估计 有些应用中已知样本服从的概率分布,但是要估计分布函数的参数 ? ,确定这些参数常用的一种方法是最大似然估计。 最大似然估计构造一个似然函数,通过让似然函数最大化,求解出 ? 。...乘积求导不易处理,因此我们对该函数取对数,得到对数似然函数: ? 最后要求解的问题为: ? 最大似然估计在机器学习中的典型应用包括logistic回归,贝叶斯分类器,隐马尔科夫模型等。...在实现贝叶斯分类器时,需要知道每个类的条件概率分布p(x|y)即先验概率。一般假设样本服从正态分布。训练时确定先验概率分布的参数,一般用最大似然估计,即最大化对数似然函数。...使用logistic函数的原因是它单调增,并且值域在(0, 1)之间,刚好符合概率的要求。训练时采用最大似然估计,求解对数似然函数的极值: ?...EM算法 EM算法是一种迭代法,其目标是求解似然函数或后验概率的极值,而样本中具有无法观测的隐含变量。因为隐变量的存在,我们无法直接通过最大化似然函数来确定参数的值。

    46420

    【收藏】机器学习与深度学习核心知识点总结

    10.最大似然估计 有些应用中已知样本服从的概率分布,但是要估计分布函数的参数 ? ,确定这些参数常用的一种方法是最大似然估计。 最大似然估计构造一个似然函数,通过让似然函数最大化,求解出 ? 。...乘积求导不易处理,因此我们对该函数取对数,得到对数似然函数: ? 最后要求解的问题为: ? 最大似然估计在机器学习中的典型应用包括logistic回归,贝叶斯分类器,隐马尔科夫模型等。...在实现贝叶斯分类器时,需要知道每个类的条件概率分布p(x|y)即先验概率。一般假设样本服从正态分布。训练时确定先验概率分布的参数,一般用最大似然估计,即最大化对数似然函数。...使用logistic函数的原因是它单调增,并且值域在(0, 1)之间,刚好符合概率的要求。训练时采用最大似然估计,求解对数似然函数的极值: ?...EM算法 EM算法是一种迭代法,其目标是求解似然函数或后验概率的极值,而样本中具有无法观测的隐含变量。因为隐变量的存在,我们无法直接通过最大化似然函数来确定参数的值。

    42510

    机器学习最全知识点(万字长文汇总)

    U的列为AAT的特征向量,V的列为AT A的特征向量。 10. 最大似然估计 有些应用中已知样本服从的概率分布,但是要估计分布函数的参数 ,确定这些参数常用的一种方法是最大似然估计。...最大似然估计构造一个似然函数,通过让似然函数最大化,求解出 。最大似然估计的直观解释是,寻求一组参数,使得给定的样本集出现的概率最大。...最大似然估计构造如下似然函数: 其中xi是已知量,这是一个关于 的函数,我们要让该函数的值最大化,这样做的依据是这组样本发生了,因此应该最大化它们发生的概率,即似然函数。...这就是求解如下最优化问题: 乘积求导不易处理,因此我们对该函数取对数,得到对数似然函数: 最后要求解的问题为: 最大似然估计在机器学习中的典型应用包括logistic回归,贝叶斯分类器,隐马尔科夫模型等...EM算法 EM算法是一种迭代法,其目标是求解似然函数或后验概率的极值,而样本中具有无法观测的隐含变量。因为隐变量的存在,我们无法直接通过最大化似然函数来确定参数的值。

    39310

    机器学习与深度学习总结

    U的列为AAT的特征向量,V的列为AT A的特征向量。 10.最大似然估计 有些应用中已知样本服从的概率分布,但是要估计分布函数的参数 ,确定这些参数常用的一种方法是最大似然估计。...最大似然估计构造一个似然函数,通过让似然函数最大化,求解出 。最大似然估计的直观解释是,寻求一组参数,使得给定的样本集出现的概率最大。...最大似然估计构造如下似然函数: 其中xi是已知量,这是一个关于 的函数,我们要让该函数的值最大化,这样做的依据是这组样本发生了,因此应该最大化它们发生的概率,即似然函数。...这就是求解如下最优化问题: 乘积求导不易处理,因此我们对该函数取对数,得到对数似然函数: 最后要求解的问题为: 最大似然估计在机器学习中的典型应用包括logistic回归,贝叶斯分类器,隐马尔科夫模型等...EM算法 EM算法是一种迭代法,其目标是求解似然函数或后验概率的极值,而样本中具有无法观测的隐含变量。因为隐变量的存在,我们无法直接通过最大化似然函数来确定参数的值。

    43120

    机器学习与深度学习核心知识点总结

    10.最大似然估计 有些应用中已知样本服从的概率分布,但是要估计分布函数的参数 ? ,确定这些参数常用的一种方法是最大似然估计。 最大似然估计构造一个似然函数,通过让似然函数最大化,求解出 ? 。...乘积求导不易处理,因此我们对该函数取对数,得到对数似然函数: ? 最后要求解的问题为: ? 最大似然估计在机器学习中的典型应用包括logistic回归,贝叶斯分类器,隐马尔科夫模型等。...在实现贝叶斯分类器时,需要知道每个类的条件概率分布p(x|y)即先验概率。一般假设样本服从正态分布。训练时确定先验概率分布的参数,一般用最大似然估计,即最大化对数似然函数。...使用logistic函数的原因是它单调增,并且值域在(0, 1)之间,刚好符合概率的要求。训练时采用最大似然估计,求解对数似然函数的极值: ?...EM算法 EM算法是一种迭代法,其目标是求解似然函数或后验概率的极值,而样本中具有无法观测的隐含变量。因为隐变量的存在,我们无法直接通过最大化似然函数来确定参数的值。

    67021

    万字长文!机器学习与深度学习核心知识点总结

    10.最大似然估计 有些应用中已知样本服从的概率分布,但是要估计分布函数的参数 ? ,确定这些参数常用的一种方法是最大似然估计。 最大似然估计构造一个似然函数,通过让似然函数最大化,求解出 ? 。...乘积求导不易处理,因此我们对该函数取对数,得到对数似然函数: ? 最后要求解的问题为: ? 最大似然估计在机器学习中的典型应用包括logistic回归,贝叶斯分类器,隐马尔科夫模型等。...在实现贝叶斯分类器时,需要知道每个类的条件概率分布p(x|y)即先验概率。一般假设样本服从正态分布。训练时确定先验概率分布的参数,一般用最大似然估计,即最大化对数似然函数。...使用logistic函数的原因是它单调增,并且值域在(0, 1)之间,刚好符合概率的要求。训练时采用最大似然估计,求解对数似然函数的极值: ?...EM算法 EM算法是一种迭代法,其目标是求解似然函数或后验概率的极值,而样本中具有无法观测的隐含变量。因为隐变量的存在,我们无法直接通过最大化似然函数来确定参数的值。

    95410

    机器学习与深度学习核心知识点总结

    10.最大似然估计 有些应用中已知样本服从的概率分布,但是要估计分布函数的参数 ? ,确定这些参数常用的一种方法是最大似然估计。 最大似然估计构造一个似然函数,通过让似然函数最大化,求解出 ? 。...乘积求导不易处理,因此我们对该函数取对数,得到对数似然函数: ? 最后要求解的问题为: ? 最大似然估计在机器学习中的典型应用包括logistic回归,贝叶斯分类器,隐马尔科夫模型等。...在实现贝叶斯分类器时,需要知道每个类的条件概率分布p(x|y)即先验概率。一般假设样本服从正态分布。训练时确定先验概率分布的参数,一般用最大似然估计,即最大化对数似然函数。...使用logistic函数的原因是它单调增,并且值域在(0, 1)之间,刚好符合概率的要求。训练时采用最大似然估计,求解对数似然函数的极值: ?...EM算法 EM算法是一种迭代法,其目标是求解似然函数或后验概率的极值,而样本中具有无法观测的隐含变量。因为隐变量的存在,我们无法直接通过最大化似然函数来确定参数的值。

    55420

    机器学习之梯度提升决策树(GBDT)

    在机器学习之随机森林中我们已经用到集成学习中的bagging方法,此处我们详细介绍集成学习中的Boosting方法。 ?...从上图可以看出,Boosting算法的工作机制是从训练集用初始权重训练出一个弱学习器1,根据弱学习器的学习误差率来更新训练样本的权重,使得之前弱学习器1中学习误差率高的训练样本点权重变高。...为解决此问题,我们尝试用类似于逻辑回归的对数似然损失函数的方法,也就是说我们用的是类别的预测概率值和真实概率值来拟合损失函数。对于对数似然损失函数,我们有二元分类和多元分类的区别。...3.1二元GBDT分类算法 对于二元GBDT,如果用类似于逻辑回归的对数似然损失函数,则损失函数表示为 ? 对于生成的决策树,我们各个叶子节点的最佳残差拟合值为 ?...可灵活处理各种类型数据,包括连续值和离散值,使用范围广。 可使用一些健壮的损失函数,对异常值的鲁棒性较强,比如Huber损失函数。 7.2缺点 弱学习器之间存在依赖关系,难以并行训练数据。

    3.9K41

    机器学习 | 逻辑回归算法(一)理论

    线性回归使用最佳的拟合直线(也就是回归线)在因变量( )和一个或多个自变量( )之间建立一种关系。在这种技术中,因变量是连续的,自变量可以是连续的也可以是离散的,回归线的性质是线性的。...在逻辑回归的建模过程中,特征矩阵是已知的,参数是未知的,因此讨论的所有"概率"其实严格来说都应该是"似然"。因此求最大值即为求"极大似然",所以逻辑回归的损失函数的推导方法叫做"极大似然法"。...逻辑回归,假设样本服从伯努利分布(0-1分布),然后求得满足该分布的似然函数,接着取对数求极值最小化负的似然函数 应用极大似然估计法估计模型参数,从而得到逻辑回归模型。...逻辑回归的损失函数求最小值,就是根据最大似然估计的方法来的。...最大似然估计 让总体分布尽量与样本的分布趋同,就是总体的分布与样本分布具有最大的相似性,然后再来求取模型中的参数 ,这样就可以得到比较符合最大似然估计的模型。

    1.6K20
    领券