首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习与深度学习习题集(上)

10.决策树如何计算特征的重要性? 11.CART对分类问题和回归问题分别使用什么作为分裂评价指标? 第6章 k近邻算法与距离度量学习 1.简述k近邻算法的预测算法的原理。...6.如果特征向量中有类别型特征,使用神经网络时应该如何处理? 7.对于多分类问题,神经网络的输出值应该如何设计? 8.神经网络参数的初始值如何设定? 9.如果采用欧氏距离损失函数,推导输出层的梯度值。...13.证明softmax回归的优化问题是凸优化问题。 14.推导softmax回归的梯度计算公式。 15.logistic回归如何计算特征的重要性?...第12章 随机森林 1.解释Bagging算法的原理。 2.解释随机森林预测算法对分类问题,回归问题的处理。 3.随机森林如何输出特征的重要性? 4.解释随机森林预测算法的原理。...9.AdaBoost算法的弱分类器应该如何选择? 10.简述梯度提升算法的原理。 11.假设使用均方误差函数,梯度提升算法如何解决回归问题? 12.梯度提升算法如何解决二分类问题?

2.7K22

机器学习面试

的问题 聊的比较多的是如何知道一个特征的重要性,如何做ensemble哪些方法比较好。...有一个弱分类器和大量未被标记过的图像数据,如何人工标记图像来对分类器进行提升 介绍下RNN和它的优缺点 让我推导BP反向传播、随机梯度下降法权重更新公式 卷积神经网络结构特点、各参数对模型结果影响、项目进展遇到的难题...,如何改进(拟牛顿法) 常用优化算法:1.梯度下降法:又有随机梯度下降和负梯度下降,2.牛顿法 主要是问了各自的优缺点,速度,能不能得到全局最优解,牛顿法的二次收敛等 问你如果有若干个极小值点,如何避免陷入局部最优解...线性回归的梯度下降和牛顿法求解公式的推导 最速下降法和共轭梯度法 wolfe条件 最速下降法和共轭梯度法的收敛速度如何判断 深刻理解常用的优化方法:梯度下降、牛顿法、各种随机搜索算法(基因、蚁群等等),...分布式的矩阵向量乘的算法 线性分类器与非线性分类器的区别及优劣;特征比数据量还大时,选择什么样的分类器?对于维度很高的特征,你是选择线性还是非线性分类器?

49720
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    算法工程师-机器学习面试题总结(3)

    可解释性:RF能够提供特征的重要性评估,通过衡量每个特征在决策树中的使用频率和划分的质量,可以得到特征在模型中的相对重要性。这对于特征选择、特征工程和模型理解等方面有很大帮助。 4....随机性带来的不确定性:RF中的随机性因素,如随机抽样和随机特征选择,使得模型的结果具有一定的不确定性。这对于模型的解释和可重复性可能带来一些挑战。 为什么多个弱分类器组合效果会比单个要好?...特征重要性评估:决策树可以通过分裂节点时的特征重要性评估,帮助我们了解哪些特征对于分类的贡献最大。线性模型或KNN难以提供这种特征重要性的信息。 4....但是,在实践中,决策树作为基模型在随机森林中表现良好,并且能够很好地平衡模型的复杂度和预测能力。因此,决策树是RF的首选基分类模型。 GBDT 梯度提升和梯度下降有什么区别和联系?...都可以用于回归和分类问题:梯度提升和梯度下降都可以应用于回归和分类问题,并在许多实际应用中获得良好的结果。 总的来说,梯度提升和梯度下降是两种不同的算法,其目标和方法有所不同。

    90322

    【2023新书】机器学习集成方法

    第5章建立在boosting的基本概念之上,并涵盖了另一种基本的序列集成方法,梯度boosting,它将梯度下降与boosting相结合。...第3部分“实际应用中的集成:使集成方法适用于数据”向您展示了如何将集成方法应用于许多场景,包括具有连续和计数型标签的数据集以及具有分类特征的数据集。...你还将学习如何解释集合以及它们的预测: 第7章展示了我们如何为不同类型的回归问题和广义线性模型训练集成,其中训练标签是连续的或计数的。...本章涵盖了线性回归、泊松回归、伽马回归和Tweedie回归的并行和顺序集成。 第8章确定了使用非数值特征学习的挑战,特别是分类特征,以及将帮助我们为此类数据训练有效集成的编码方案。...还讨论了几种常见的黑盒可解释性方法,包括排列特征重要性、部分依赖图、代理方法、局部可解释的模型无关解释、Shapley值和Shapley加性解释。

    34540

    蚂蚁集团联手上海财经大学:揭开AI大模型在金融领域的神秘面纱 读书笔记 - VII

    关于 DP-SGD,即差分隐私的随机梯度下降算法 基于差分隐私随机梯度下降法(DP-SGD,即 Differential Privacy - Stochastic Gradient Descent)是深度学习中最流行的...与传统的随机梯度下降算法(SGD)的主要不同点是:DP-SGD算法在每一轮迭代过程中都会进行梯度裁剪和添加高斯噪声。...SGD通过随机选择样本来计算梯度,这使得它具有一定的随机性,有助于避免陷入局部极小值。这里,我们略微记住,确定的步长,会陷入 local。 缺点: 第一,不稳定。...例如,可以构建分类器或者利用大模型通过提示的方式,判断当前回复中是否包含 PII,除非 PII 是公开的要求大模型添加引用,否则进行替换或重新生成,应该避免将这类信息提供给用户。...那么,我们用什么来模拟遗忘呢? 在解释文章之前,我先构思了一个算法,这个算法的主题是“如何衡量一个样本的重要性”。

    11810

    随机森林、AdaBoost 和 XGBoost 三者之间的主要区别

    Boosting 方法背后的直观理念是,我们需要串行地训练模型,而非并行。每个模型都应专注于之前弱学习器表现不佳的样本区域。...一阶导指示梯度方向,而二阶导则揭示了梯度方向如何变化,类似牛顿法比 SGD 收敛更快,二阶导信息可以使得梯度收敛更加快速和精确。...在寻找最优特征方面,XGBoost 通过给特征打分来确定其重要性,采用无放回的样本选择方式以避免梯度优化时的重复抽样问题,支持子采样以提高模型训练的效率。...应用场景、优点与不足 随机森林适用于分类和回归任务,特别是在具有高维特征且模型解释性要求不严格的情况下。...优点:准确性高;抑制过拟合;能处理大量的特征和数据;能处理缺失值;多功能性;易于使用 不足:模型复杂度高;模型可解释性不佳;对噪声敏感 AdaBoost 适用于二分类问题和多类别问题(通过一对多策略)。

    2K11

    XGBoost 2.0:对基于树的方法进行了重大更新

    决策树 在更严格的数学语言中,决策树表示一个函数T:X→Y,其中X是特征空间,Y可以是连续值(在回归的情况下)或类标签(在分类的情况下)。我们可以将数据分布表示为D和真函数f:X→Y。...与随机森林(Random Forest)通过Bagging独立构建树不同,GBDT在序列中构建树,使用梯度下降最小化预测值和真实值之间的差异,通常通过损失函数表示。...“梯度”一词意味着使用梯度下降优化来指导树的顺序构建,旨在不断最小化损失函数,从而使模型更具预测性。 为什么它比决策树和随机森林更好?...减少过拟合:与随机森林一样,GBDT也避免过拟合,但它是通过构建浅树(弱学习器)和优化损失函数来实现的,而不是通过平均或投票。 高效率:GBDT专注于难以分类的实例,更多地适应数据集的问题区域。...特征重要性和模型可解释性 大多数集成方法提供特征重要性度量,包括随机森林和标准梯度增强。但是XGBoost提供了一套更全面的特性重要性度量,包括增益、频率和覆盖范围,从而允许对模型进行更详细的解释。

    71750

    大模型入门指南:基本技术原理与应用

    常见的优化算法包括: 随机梯度下降(Stochastic Gradient Descent,SGD):SGD是一种基本的优化算法,通过计算损失函数的梯度并按负梯度方向更新参数。...可视化:可视化是一种常用的解释性和可解释性技术。例如,我们可以可视化卷积神经网络的卷积层和池化层的输出,以理解模型是如何从原始输入中提取特征的。...我们也可以可视化模型的注意力权重,以理解模型是如何关注输入的不同部分的。 特征重要性:特征重要性是另一种常用的解释性和可解释性技术。...我们可以计算每个特征对预测结果的贡献度,以理解模型是如何使用这些特征的。常见的特征重要性方法包括梯度重要性、置换重要性等。 模型探查:模型探查是一种更深入的解释性和可解释性技术。...在未来,随着深度学习技术的不断发展,我们有理由相信大模型将在各个领域取得更多的突破。对于普通用户的我们来说,更多还是要学习如何使用大模型的各种应用,提升我们的生产力和工作效率。

    30510

    LR需要理解的一些内容

    /∂θ =θj - ∆·1/m·∑x·(h-y) ∆为学习率 梯度下降如何并行化?...如果在损失函数最终收敛的情况下,其实就算有很多特征高度相关也不会影响分类器的效果 每一个特征都是原来特征权重值的百分之一,线性可能解释性优点也消失了 增加训练收敛的难度及耗时,有限次数下可能共线性变量无法收敛...随机梯度下降 局部最优解,可跳出鞍点 计算快 批梯度下降 全局最优解 计算量大 mini批梯度下降 综合以上两种方法 除此之外,比如ada和冲量梯度下降法会对下降的速率速度进行控制,也会对不同更新速度的参数进行控制...penalty是正则化,solver是函数优化方法 penalty包含l1和l2两种,solver包含坐标轴下降、牛顿、随机梯度下降等 牛顿法,拟牛顿法和随机梯度下降都不能使用l1,因为他们都需要损失函数的一阶二阶导数...l1和l2选择参考上面讲的正则化部分 随机梯度下降在数据较少的时候最好别用,但是速度比较快。

    1.1K10

    盘一盘 Python 系列特别篇 - Sklearn (0.22)

    用 load_dataname 来加载小数据 用 fetch_dataname 来下载大数据 用 make_dataname 来构造随机数据 这里我们用第三种: 用支持向量机分类器 svc 和随机森林分类器...接下来重头戏来了,用 StackingClassifier 作为元估计器(meta-estimators),来集成两个子估计器(base-estimator),我们用了随机森林分类器 rfc 和梯度提升分类器...y_test) gbc.score(X_test, y_test) clc.score(X_test, y_test) 0.9482142857142857 0.8391428571428572 1.0 集成分类器的得分比随机森林分类器和梯度提升分类器都高...置换检验计算特征重要性 核心思想是“如果某个特征是重要特征,那么加入一些随机噪声模型性能会下降”。 做法是把所有数据在特征上的值重新随机排列,此做法被称为置换检验。...根据上图,我们得出同样结论,花瓣长度特征最重要,花萼长度特征最不重要,虽然具体特征重要性均值和标准差不同,但在判断特征重要性的大方向还是一致的。

    1.2K40

    【Scikit-Learn 中文文档】集成方法 - 监督学习 - 用户指南 | ApacheCN

    下面的代码片段说明了如何构造一个 KNeighborsClassifier 估计器的 bagging 集成实例,每一个基估计器都建立在 50% 的样本随机子集和 50% 的特征随机子集上。...下面的例子展示了如何拟合一个包含 100 个决策树弱学习器的梯度提升分类器: >>> >>> from sklearn.datasets import make_hastie_10_2 >>> from...梯度提升(Gradient Boosting)尝试通过最速下降法以数字方式解决这个最小化问题.最速下降方向是在当前模型  ?  下评估的 损失函数的负梯度,其中模型  ?  ...解释性 (Interpretation) 通过简单地可视化树结构可以很容易地解释单个决策树,然而对于梯度提升模型来说,一般拥有数百棵/种回归树,因此通过目视检查每一棵树 是很难解释的.幸运的是,有很多关于总结和解释梯度提升模型的技术已经被提出...他们如何在预测目标方面做出积极的响应? 单个决策树本质上是通过选择最佳切分点来进行特征选择.这个信息可以用来检测每个特征的重要性.基本思想是:在树 的分割点中使用的特征越频繁,特征越重要。

    2.1K90

    机器学习与深度学习习题集答案-1

    在x的邻域内,即控制增量的步长,从而可以忽略泰勒公式中的 ? 项。否则不能保证每次迭代时函数值下降。 12.梯度下降法如何判断是否收敛?...另外一种常用的方式是判定其所有特征值是否都为正,如果为正,则为正定矩阵。 27.解释最速下降法的原理。 梯度下降法中步长是固定的,最速下降法是对梯度下降法的改进,它动态确定步长值。...12.解释精度,召回率,F1值的定义。 测试样本中正样本被分类器判定为正样本的数量记为TP,被判定为负样本的数量记为FN;负样本中被分类器判定为负样本的数量记为TN,被判定为正样本的数量记为FP。...因此Hessian矩阵是半正定矩阵,目标函数是凸函数 19.推导线性回归的梯度下降迭代公式。 如果采用梯度下降法求解,损失函数对 ? 的偏导数为 ? 20.解释混淆矩阵的概念。...对于分类树,将叶子节点的值设置成本节点的训练样本集中出现概率最大的那个类。即 ? 对于回归树,则设置为本节点训练样本标签值的均值 ? 10.决策树如何计算特征的重要性?

    2.8K11

    图神经网络的解释性综述!

    根据特征重要性分数的获得方式,作者将实例级方法分为四个不同的分支: 基于梯度/特征的方法[49],[50],采用梯度或特征值来表示不同输入特征的重要程度。...其关键思想是将梯度或隐藏的特征图值作为输入重要性的近似值。一般来说,在这类方法中,梯度或特征值越大,表示重要性越高。...1)SA SA[49]直接采用梯度的平方值作为不同输入特征的重要性得分。输入特征可以是图节点、边或节点特征。它假设绝对梯度值越高,说明相应的输入特征越重要。...3.4 分解方法(Decomposition Methods) 分解方法是另一种比较流行的解释深度图像分类器的方法,它通过将原始模型预测分解为若干项来衡量输入特征的重要性。...建立一个模型,采用预训练好的BERT作为特征提取器,采用一层平均池化的GCN作为分类器。最后预训练的BERT为每个词提取768维的特征向量,作为情感图数据中的节点特征。 ?

    1.3K40

    BAT机器学习面试1000题系列(第1~75题)

    线性分类器可解释性好,计算复杂度较低,不足之处是模型的拟合效果相对弱些。 非线性分类器效果拟合能力较强,不足之处是数据量不足容易过拟合、计算复杂度高、可解释性不好。...在机器学习中,基于基本的梯度下降法发展了两种梯度下降方法,分别为随机梯度下降法和批量梯度下降法。...为了解决上面的问题,实际中我们应用的是梯度下降的一种变体被称为随机梯度下降。...上面公式中的误差是针对于所有训练样本而得到的,而随机梯度下降的思想是根据每个单独的训练样本来更新权值,这样我们上面的梯度公式就变成了: ? 经过推导后,我们就可以得到最终的权值更新的公式: ?...常用的拟牛顿法有DFP算法和BFGS算法。 65、请说说随机梯度下降法的问题和挑战?机器学习 ML基础 中 ? ? ? ? 那到底如何优化随机梯度法呢?

    2.4K60

    首次摆脱对梯度的依赖,CMU、武大等开源Score-CAM:基于置信分数的视觉可解释性

    这里解释可以是从数学理论层面进行的先验解释,比如对于激活函数的差异分析、模型的泛化能力分析,也可以是对于网络预测结果的后验解释,比如我们训练好的模型将一张图片分类为"猫",我们希望知道网络是通过什么因素或特征将它分类为...梯度作为一种局部信息,反映了局部位置的扰动对于决策分数的影响。我们常见的Saliency Map [6], 即通过该种方式得到。...比如在一张"猫"的图片中,背景信息的移除通常不会降低"猫"类别上的置信度,而一些关键区域,如"猫"的耳朵,在移除后则可能造成置信度的下降。但是这类方法存在一个明显的劣势,即如何生成掩码(mask)。...目前主要有两种思路,一种是通过采样的方式(比如随机采样或蒙特卡洛采样 [10])生成多个掩码,然后来计算每一个掩码区域的重要性,这种方式往往需要生成大量掩码,计算量很大;第二种是通过优化的方式来生成掩码...考虑到背景信息在训练过程中有可能作为上下文信息辅助模型决策(例如"草地"可能与"狗"存在一定相关性),为了验证背景区域的重要性,作者在原始图像(随机挑选的测试用例)中移除部分背景信息后发现,对于多数样本

    62140

    52道机器学习常见面试题目

    决策树计算量简单,可解释性强,比较适合处理有缺失属性值的样本,能够处理不相关的特征,但是容易过拟合,需要使用剪枝或者随机森林。...表示在第i个簇中属性u上a的样本数,样本空间中不同属性的重要性不同的时候可以采用加权距离,一般如果认为所有属性重要性相同则要对特征进行归一化。...1.树的数量越多越好 2.使用随机森林具备可解释性 A、1 B、2 C、1 和 2 D、都不对 12-15 为了回答下面几个问题,我们来看看下面这个图。...1.在每一个步骤,使用一个新的回归树来补偿已有模型的缺点 2.我们可以使用梯度下降的方法来最小化损失函数 A、1 B、2 C、1 和 2 D、都不对 20 对还是错: bagging适用于高的方差低偏差的模型...1.我们在N个又放回采用的样本上构建N个回归器 2.我们使用N个回归树 3.每一棵树具有高的方差低的偏差 A、1 和 2 B、2 和3 C、1 和 3 D、1,2 和 3 28 28.如何为基于树的模型选择最佳超参数

    1.8K30

    机器学习算法中的概率方法

    直观表达了各属性在预测中的重要性。 如何利用广义线性模型解决非线性问题? (1). 引入层级结构。例如深度学习是对样本 x 进行逐层加工,将初始的低层表示转化为高层特征表示后使用线性分类器。(2)....6 快问快答 随机梯度下降和标准梯度下降的优缺点各是什么? • 参数更新速度。标准梯度下降需要遍历整个训练集才能计算出梯度,更新较慢。随机梯度下降只需要一个训练样例即可计算出梯度,更新较快。...当训练集样本存在冗余时,随机梯度下降能避免在相似样例上计算梯度的冗余。 • 梯度中的随机因素/噪声。标准梯度下降计算得到的梯度没有随机因素,一旦陷入局部极小将无法跳出。...随机梯度下降计算得到的梯度有随机因素,有机会跳出局部极小继续优化。 实际应用时,常采用随机梯度下降和标准梯度下降的折中,即使用一部分样例进行小批量梯度下降。...对数几率回归的损失函数及梯度推导。 答案见上文。 线性分类器如何扩展为非线性分类器? 答案见上文。 判别式模型和生成式模型各是什么,各自优缺点是什么,常见算法中哪些是判别式模型,哪些是生成式模型?

    1.3K30

    查收一份附带答案的面经!

    1.1.2 随机梯度下降(Stochastic gradient descent) 随机梯度下降算法每次从训练集中随机选择一个样本来进行学习,即:θ=θ−η⋅∇θJ(θ;xi;yi) 优点:随机梯度下降算法每次只随机选择一个样本来更新模型参数...,其每次更新从训练集中随机选择m,m<<n 个样本进行学习,即: θ=θ−η⋅∇θJ(θ;xi:i+m;yi:i+m) 优点: 相对于随机梯度下降,Mini-batch梯度下降降低了收敛波动性,即降低了参数更新的方差...通过加法模型将弱分类器进行线性组合,比如AdaBoost通过加权多数表决的方式,即增大错误率小的分类器的权值,同时减小错误率较大的分类器的权值。...这里我们主要引用参考文献13中的解释: ? 5.4 Stacking stacking 就是当用初始训练数据学习出若干个基学习器后,将这几个学习器的预测结果作为新的训练集,来学习一个新的学习器。 ?...6、梯度消失、爆炸及解决方案 想必大家对梯度消失和梯度爆炸的概念都很了解了,这里我们只谈一谈如何避免梯度消失和爆炸。

    69030

    神经网络可解释性的另一种方法:积分梯度,解决梯度饱和缺陷

    在最原始的 Saliency map方法中,假设神经网络的分类结果线性依赖于输入图片中的每个像素或特征, 表示为 , 则输出 y 对输入 x 的梯度 能够直接用来量化每个像素对分类决策的重要程度。...写成公式就是, 特征重要性米米大象鼻子长度鼻子长度 这是一个挺好玩的想法。唯一困难的地方在于对于一张给定的图片,大象鼻子长度已定(比如=2 米), 如何得到鼻子长度小于 2 米时输出对输入的梯度呢?...最大距离图片的问题是,它可能包含了当前图片的信息,不能表示特征丢失对分类结果的影响。使用模糊的照片,可以捕获特征丢失对梯度的贡献。 均匀随机图片。每个像素通过 valid 区间内均匀分布抽样得到。...除了积分梯度法,DeepLift 方法也使用了基线图片来量化可解释性。DeepLift 使用类似层间相关性传递的算法(LRP),把重要性从输出一层层传递到输入。...总结 直接使用输出对输入的梯度作为特征重要性会遇到梯度饱和问题。积分梯度法从通过对梯度沿不同路径积分,期望得到非饱和区非零梯度对决策重要性的贡献。原始积分梯度法使用纯黑图片,噪声图片作为积分基线。

    98440

    Coursera吴恩达《优化深度神经网络》课程笔记(3)-- 超参数调试、Batch正则化和编程框架

    接着,我们着重介绍了三种常用的加速神经网络学习速度的三种算法:动量梯度下降、RMSprop和Adam算法。其中,Adam结合了动量梯度下降和RMSprop各自的优点,实际应用中表现更好。...通常来说,学习因子α是最重要的超参数,也是需要重点调试的超参数。动量梯度下降因子β、各隐藏层神经元个数#hidden units和mini-batch size的重要性仅次于α。...当然,这里超参数重要性的排名并不是绝对的,具体情况,具体分析。 如何选择和调试超参数?...softmax classifier的反向传播过程仍然使用梯度下降算法,其推导过程与二元分类有一点点不一样。...然后就可以继续进行反向传播过程的梯度下降算法了,推导过程与二元分类神经网络完全一致。 10.

    1.7K00
    领券