首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

收藏!机器学习与深度学习面试问题总结.....

生成模型负责生成最好的数据骗过判别模型,而判别模型负责识别出哪些是真的哪些是生成模型生成的。但是这些只是在了解了GAN之后才体会到的,但是为什么这样会有效呢?...因为我们前面说过可以变成软间隔问题,引入了惩罚系数,这样还可以引出hinge损失的等价形式(这样可以用梯度下降的思想求解SVM了)。我个人认为难的地方在于求解参数的SMO算法。...用知乎大神的解释吧 (6)处理数据偏斜 可以对数量多的类使得惩罚系数C越小表示越不重视,相反另数量少的类惩罚系数变大。...4、Boosting和Bagging (1)随机森林 随机森林改变了决策树容易过拟合的问题,这主要是由两个操作所优化的:1、Boostrap从袋内有放回的抽取样本值2、每次随机抽取一定数量的特征(通常为...解决方法如下: 采样,对小样本加噪声采样,对大样本进行下采样 进行特殊的加权,如在Adaboost中或者SVM中 采用对不平衡数据集不敏感的算法 改变评价标准:用AUC/ROC来进行评价 采用Bagging

1.1K70

收藏!机器学习与深度学习面试问题总结.....

生成模型负责生成最好的数据骗过判别模型,而判别模型负责识别出哪些是真的哪些是生成模型生成的。但是这些只是在了解了GAN之后才体会到的,但是为什么这样会有效呢?...因为我们前面说过可以变成软间隔问题,引入了惩罚系数,这样还可以引出hinge损失的等价形式(这样可以用梯度下降的思想求解SVM了)。我个人认为难的地方在于求解参数的SMO算法。...用知乎大神的解释吧 (6)处理数据偏斜 可以对数量多的类使得惩罚系数C越小表示越不重视,相反另数量少的类惩罚系数变大。...4、Boosting和Bagging (1)随机森林 随机森林改变了决策树容易过拟合的问题,这主要是由两个操作所优化的:1、Boostrap从袋内有放回的抽取样本值2、每次随机抽取一定数量的特征(通常为...解决方法如下: 采样,对小样本加噪声采样,对大样本进行下采样 进行特殊的加权,如在Adaboost中或者SVM中 采用对不平衡数据集不敏感的算法 改变评价标准:用AUC/ROC来进行评价 采用Bagging

71420
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    深度学习相关面试题

    的图片敏感 3.Upsampling:上采样。...2.dropout是一种CNN训练过程中防止过拟合提高效果的方法 3.dropout带来的缺点是可能减慢收敛速度:由于每次迭代只有一部分参数更新,可能导致梯度下降变慢 4.测试时,需要每个权值乘以P...2.early stop 3.参数规则化 4.用更简单模型 5.dropout 6.加噪声 7.预训练网络freeze某几层 6.LSTM防止梯度弥散和爆炸 LSTM用加和的方式取代了乘积,使得很难出现梯度弥散...但是相应的更大的几率会出现梯度爆炸,但是可以通过给梯度加门限解决这一问题 7.为什么很多做人脸的Paper会最后加入一个Local Connected Conv?...若使用池化层,则降低了特征图size,需在高层阶段使用上采样,由于池化会损失信息,所以此方法会影响导致精度降低; 若使用较小的卷积核尺寸,虽可以实现输入输出特征图的size相同,但输出特征图的各个节点感受野小

    72420

    深度学习的方法有哪些?看这篇就够了

    训练技巧相关 梯度归一化: 计算出来梯度之后,要除以minibatch的数量,这样就不显式依赖minibatch size。 梯度限制: 限制最大梯度,超过阈值乘一个衰减系数,防止梯度爆炸。...传统编码解码结构存在的最大问题是:输入序列不论长短都会被编码成一个固定长度的向量表示,而解码则受限于该固定长度的向量表示,尤其是当输入序列比较长时,模型的性能会变得很差。...又知sigmoid函数的特性是把+∞~-∞之间的输入压缩到0~1之间,所以反向传播时,梯度会以指数级减小,靠近输入层的系数得不到更新,导致梯度弥散。...而如果初始化时候采用|w| > 1 的系数,又会导致梯度以指数级增大,靠近输入层的系数得到的梯度过大,导致梯度爆炸。...为什么LSTM在预防梯度弥散与梯度爆炸上性能由于RNN 传统RNN对状态的维护是通过乘积的方式,这导致在链式求导梯度时,梯度被表示为连积的形式,造成梯度爆炸或弥散。

    3.7K30

    【小白学AI】八种应对样本不均衡的策略

    【F-Score和Kappa系数已经在历史文章中讲解过啦】 2 10种解决办法 解决办法主要有下面10种不同的方法。...下图很形象的展示出这个过程: ? ---- 【简单上采样】 就是有放回的随机抽取少数量的样本,饭后不断复制抽取的随机样本,直到少数量的样本与多数量的样本处于同一数量级。但是这样容易造成过拟合问题。...为什么会造成过拟合呢? 最极端的例子就是把一个样本复制100次,这样就有了一个100样本的数据库。模型训练出来很可能得到100%的正确率,但是这模型真的学到东西了吗?...2.2 调整损失函数 调整损失函数的目的本身是为了使模型对少数量样本更加敏感。...3 为什么树模型不担心这个问题 要解释这个问题,首先要理解这两个算法拟合样本的本质。 逻辑回归的算法,采用的是经验风险最小化作为模型的学习准则,即,他的优化目标是最小化模型在训练集上的平均损失。

    1.3K10

    Resnet

    下采样:在数据量分布不均衡的情况下,直接拿这样的数据建模容易出问题 直接拿原始数据建模的问题在于数量少的类别容易被分错,而下采样就是在数量多的类别中采取一部分数据作为训练数据去建模。...常见的下采样方法有EasyEnsemble (数量多的类别划分为n个子集,之后集成)、 BalanceCascade(多数类样本中抽样得来的子集与少数类样本结合起来训练一个基学习器H,训练完后多数类中能被...在接下来的第n+1轮中,从被剔除后的多数类样本中产生子集用于与少数类样本结合起来训练,最后将不同的基学习器集成起来)以及nearmiss(启发式算法) 上采样则往往可以是插值等方式。...decay 不对bias做正则化,可以防止过拟合 Label Smoothing one-hot编码无法输出每一个类别的概率信息,通过对标签进行平滑的处理,能够增加模型的泛化能力 Mixup 典,太经典了...Knowledge Distillation 教师、学生模型 除此之外,还有针对flops的操作,但对于“小作坊”,意义似乎不大,至少对我意义不大,此处不再介绍 Explanation 解释一 为什么神经网络无法做到精确的变换

    18510

    特征选择

    特征选择特征选择概述Filter 过滤法方差选择法相关系数法卡方检验互信息法Wrapper 包装法稳定性选择(Stability Selection)递归特征消除特征值排序选择Embedded 嵌入法线性模型正则化树模型类别标签不平衡处理欠采样过采样加权处理...由于L2惩罚项中系数是二次方的,这使得L2和L1有着诸多差异,最明显的一点就是,L2正则化会让系数的取值变得平均。...所谓过采样是指把占比少的类别 B 样本数量(N=100)扩增到占比多的类别 A 样本数量(M=900)一致,然后进行训练。...第一种方法(随机过采样): 由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题, 即使得模型学习到的信息过于特别(Specific)而不够泛化(General),因此很少使用这种方法...方法中, 当由边界的样本与其他样本进行过采样差值时, 很容易生成一些噪音数据.

    1.3K32

    ResNet与常见ODE初值问题的数值解法

    我们特意寻找到ResNet会梯度爆炸的设置,高阶堆叠的ResNet同样可以正常快速的收敛。 基于这个现象,我们对鲁棒性也进行了进一步的测试。...对比两种情况:1,下采样发生在Conv(3,64)阶段,在升维的过程中,下采样。2.在第一个Conv(64,64)layer下采样。...以实际参数量和符点运算次数相等的情况来做公平对比,因此虽然名义上是高阶堆叠的ResNet,但由于Block的数量不同,在对比的过程中是完全同层数,深度,参数量和计算量的。 ?...自适应系数 二阶,三阶和四阶方法是固定系数的,二分之一,三分之二,二加减根号二之类的。在更高阶方法中,block内的中间状态在shortcut出去的时候会有抑制系数。...这个系数会根据每次迭代返回的误差值动态调整。我们目前的实验中暂时还没有找到一个特别好用的变化方法。个人感觉这种形式和SEblock以及多头注意力都有点联系。 数据集 数据集确实太小了,我太穷了嗷。

    1.2K40

    【小白学ML】随机森林 全解 (从bagging到variance)

    为什么现在还要学习随机森林?...6 随机森林的特点 6.1 优点 在当前的算法中,具有极好的准确率 能够运行在大数据上 能够处理具有高维特征的输入样本,不需要降维 能够计算各个特征的重要度 能够防止过拟合 其实在一些大数据竞赛中,随机森林也是我第一个会尝试的模型哦...这里所有的 ,都是从所有数据集中随机采样的,所以可以理解为都是服从相同分布的。所以不断增加B的数量,增加随机森林中树的数量,是不会减小模型的偏差的。...这样可以看出来了,RF的树的数量越多,RF方差的第二项会不断减小,但是第一项不变。也就是说,第一项就是RF模型偏差的下极限了。...虽然也是集成模型,但是可以想到,每一个GBDT中的树,所学习的数据的分布都是不同的,这意味着在GBDT模型的方差会随着决策树的数量增多,不断地增加。

    1.5K10

    ResNet详解与分析

    我们知道,对浅层网络逐渐叠加layers,模型在训练集和测试集上的性能会变好,因为模型复杂度更高了,表达能力更强了,可以对潜在的映射关系拟合得更好。...如果不是过拟合以及梯度消失导致的,那原因是什么?...更好的解明明存在,为什么找不到?找到的反而是更差的解? 显然,这是个优化问题,反映出结构相似的模型,其优化难度是不一样的,且难度的增长并不是线性的,越深的模型越难以优化。...image.png 反向传播中的这个\(1\)具有一个很好的性质,任意两层间的反向传播,这一项都是\(1\),可以有效地避免梯度消失和梯度爆炸。...所以,网络的“实际深度”是在训练过程中决定的,即ResNet具有某种深度自适应的能力。 深度自适应能解释不会“退化”,但为什么可以更好?

    2.4K40

    深度神经网络总结

    上标3代表线性系数w所在的层数,而下标对应的是输出的第三层索引2和输入的第二层索引4。你也许会问,为什么不是w342, 呢?...对于梯度爆炸,则一般可以通过调整DNN模型中的初始化参数得以解决。...常用的机器学习Bagging算法中,随机森林是最流行的。它通过随机采样构建若干个相互独立的弱决策树学习器,最后采用加权平均法或者投票法决定集成的输出。在DNN中同样可以使用Bagging的思路。...ReLU的单侧抑制会使一部分神经元的输出为 0,提供了网络的稀疏表达能力,并且减少了参数的相互依存关系,可以缓解过拟合。 缺点 使用Relu激活函数在训练过程中Relu会导致神经元不可逆死亡。...,减少过拟合,增强模型的泛化能力。

    1.5K21

    Tensorflow入门教程(三十九)——GER-VNet

    第一个是数据增强,是常见的有效方法,虽然数据增强可以让CNN学习到不同变换特征,但是学习到的CNN特征参数大小会变大从而导致特征参数过度冗余,过拟合风险也越高。...尽管旋转的卷积核可以在每个卷积层的不同方向上实现局部对称,但是这些解决方案通过会限制了网络的深度和全局旋转不变性,这是由于维数爆炸和方向池化操作产生了加剧噪声所致。...3、论文灵感来自于图像常规分类中的组不变CNN。通过将平移,旋转和反射结合在一起来建立对称组,以显着提高每个内核的利用率并减少过滤器的数量。...组上采样层:与传统常规CNN中的上采样操作一样,可以使用最近邻和双线性插值来完成上采样,不过与传统不同之处是组上采样是在8个方向上同时上采样,而传统是在1个方向上。...然后将所有方向的组输出层结果变换到单通道的二值预测图。由于池化操作会降低特征图分辨率,对于分割是不利的,所以在组隐藏层中采用不同的步长来替换池化。

    46220

    我愿称之为史上最全的深度学习面经总结(附答案详解)

    协方差矩阵和相关系数的关系: 可以看到,相关系数的计算过程中,已经对变量做了均值方差的标准化处理了,所以对两个特征计算相关系数不需要考虑量纲大小的问题; 现实世界中,不同的特征(多个特征=多元)很难完全独立...将采样后的预测的类别按照采样比例进行相应的增大或减少,例如对类别A下采样了50%,则预测结果中类别A的预测数量为m,令m=m/0.5=2m,然后计算分类准确率; 这种处理方式是不准确的,合理的方式应该是直接对原始数据进行评估指标的计算...讲讲smote算法的原理?为什么平常很少使用smote这类基于样本生成的方法? 问:过采样(上采样)和生成样本的区别?...为什么对特征的增减会影响过拟合问题?为什么约束模型的复杂程度会缓解过拟合问题? 首先,上述所提到的三种方法都是一种经验性的解决方法,并不一定奏效,存在前提条件....一般求L1的优化方法(坐标下降,LARS角回归) L1为什么能让参数稀疏,L2为什么会让参数趋于较小值,L1优化方法 LR模型中为何使用交叉熵而不使用MSE作为损失函数(从损失函数建立的目标和效果上谈)

    18110

    机器学习入门 9-6 在逻辑回归中使用多项式特征

    Pipleline管道中传入的是一个列表,列表中每一个元素代表一个步骤用一个元组来表示。...如果我们完全遵守这种设计标准,在使用Sklearn的其它模块的时候,Sklearn会认为这个模块和Sklearn自己定义的模块是一样的,它就能无缝的衔接起来,这也是为什么这个课程要全部使用Sklearn...当然现在我们学习的还比较浅显,所以能够利用上这个机制优点的地方可能主要就是在使用管道的这部分,但是以后随着深入使用更多方法来解决复杂的问题,会慢慢的体会到这种机制的优点。...当添加多项式的逻辑回归中的多项式阶数也就是degree值越大,模型就会越复杂,模型更容易过渡的拟合训练数据,导致过拟合,而对应的决策边界就会越来越不规则。...前面学习了解决过拟合问题的一些思路,可以通过减小degree值进而简化模型,除此之外,还有一个非常通用的思路,就是进行模型正则化。

    1.6K30

    深度学习面经总结

    将采样后的预测的类别按照采样比例进行相应的增大或减少,例如对类别A下采样了50%,则预测结果中类别A的预测数量为m,令m=m/0.5=2m,然后计算分类准确率; 这种处理方式是不准确的,合理的方式应该是直接对原始数据进行评估指标的计算...讲讲smote算法的原理?为什么平常很少使用smote这类基于样本生成的方法? 问:过采样(上采样)和生成样本的区别?...为什么对特征的增减会影响过拟合问题?为什么约束模型的复杂程度会缓解过拟合问题? 首先,上述所提到的三种方法都是一种经验性的解决方法,并不一定奏效,存在前提条件....,例如通过上采样的方式对结构化数据进行样本生成很容易产生这种噪声样本,; 这个时候增加或者减少特征也是可能缓解过拟合问题的, 问:为何模型总是难以拟合真实情况 问:为什么你认为增加样本、减少特征,约束模型复杂度...一般求L1的优化方法(坐标下降,LARS角回归) L1为什么能让参数稀疏,L2为什么会让参数趋于较小值,L1优化方法 LR模型中为何使用交叉熵而不使用MSE作为损失函数(从损失函数建立的目标和效果上谈)

    9610

    使用Imblearn对不平衡数据进行随机重采样

    欠采样,过采样,过采样和欠采样的组合采样器。我们可以采用相关的方法或算法并将其应用于需要处理的数据。...过采样 我们用随机采样器将合成的行添加到数据中。我们通过增加少数分类来使目标值的数量相等。这对于分类有益还是有害取决于具体的任务 ,所以需要对于具体任务来说需要进行测试。...这些重采样方法的常见用法是将它们组合在管道中。不建议在大型数据集中仅使用其中之一,这是多数和少数类之间的重要区别。...使用流水线管道 如上所述,不建议仅将过采样或欠采样方法应用于在类之间具有显着差异的大量数据。我们有一个额外的选择,我们可以在流水线中同时应用过采样和欠采样方法。...接下来,采用0.5采样策略的RandomUnderSampler将多数类的数量减少为“ 2 *少数类”。在管道的最后,少数类和多数类之间的比率将为0.5。

    3.7K20

    独家 | 在时间关系数据上AutoML:一个新的前沿

    AutoML的最新进展主要包括从时间关系数据库中自动发现有意义的表间关系的复杂功能合成(例如,深度特征综合),使用模型自动调整进行概念漂移(例如,AutoGBT),以及深度学习模型的自动设计(例如,神经结构搜索...它还包括分类特征的频率编码,而特征是使用子表中聚合指标的时间联接自动合成的。多数类的实例将进行下列采样以保持1:3的比率。...模型选择 在计算和存储方面,尝试几种线性和非线性模型的成本可能会非常昂贵。由于梯度增强决策树在处理分类特征和可扩展性方面的鲁棒性,我们将模型组合限制在CatBoost的实现上。...同时使用交叉验证对超参数(例如树的数量)进行调整,以避免过度拟合。 我们的解决方案拓展了现有的AutoML研究项目组合,允许使用涉及时态关系数据库学习的用例。...尽管AutoML最初专注于最佳机器学习管道的自动构建,随着时间的推移,对此类管道自动维护处理它的范围正在扩大,模型自治性进一步增加。

    87310

    深度学习的优化方法

    如果你改变过实验中的模型结构或者超参数,你也许发现了:当模型在训练数据集上更准确时,它在测试数据集上却不⼀定更准确。这是为什么呢?...⼀般来说,如果训练数据集中样本数过少,特别是⽐模型参数数量(按元素计)更少时,过拟合更容易发⽣。此外,泛化误差不会随训练数据集⾥样本数量增加而增⼤。...本质上,梯度消失和爆炸是一种情况。在深层网络中,由于网络过深,如果初始得到的梯度过小,或者传播途中在某一层上过小,则在之后的层上得到的梯度会越来越小,即产生了梯度消失。梯度爆炸也是同样的。...**数据集进行下采样操作,**使得符合数据同分布。 数据集增强、正则或者半监督学习等方式来解决小样本数据集的训练问题。 9. 如何提升模型的稳定性?...特征选择:过高的特征维度会使模型过拟合,减少特征维度和正则一样可能会处理好方差问题,但是同时会增大偏差。 10. 有哪些改善模型的思路 **数据角度 ** 增强数据集。

    70210

    自动数据增强:概述和SOTA

    我们通过模型向前传递每个“C”增广,损失越高,增广越有用。这是MuAugment。 为什么高损耗意味着有用的增益?...然而,当输入到模型中时,纯噪声会产生很高的损失,所以使用MuAugment可以选择那些创建时无法识别的图像。...对于这个问题没有简单的解决方案,除了选择适当的超参数,以减少难以理解的图像的生成,所以保持合成中变换的数量“N”小于4,每个变换的大小“M”小于6是一个好的开始。 如果你有时间,试试网格搜索。...所以,在网格搜索中采样M的值时要记住这一点。 总结 我们对数据增强策略搜索算法的区系进行了调查。有些游戏在我们的任务之上叠加了另一个AI模型。其他的使用更少的参数和一个随机样本的集合变换。...进入MuAugment: ai模型和基于随机性的方法的混合。它从一个变换列表中随机采样合成,并且只使用最有用的(即损耗最大的)来训练数据。为了得到最好的结果,将变换大小的不同值放入网格搜索中。

    51810

    干货整理:处理不平衡数据的技巧总结!收好不谢

    MCC:观察和预测的二进制分类之间的相关系数。 AUC:正确率与误报率之间的关系。 2.重新采样训练集 除了使用不同的评估标准外,还可以选择不同的数据集。...使平衡数据集不平衡的两种方法:欠采样和过采样。 欠采样通过减少冗余类的大小来平衡数据集。当数据量足够时使用此方法。...通过将所有样本保存在少数类中,并在多数类中随机选择相等数量的样本,可以检索平衡的新数据集以进一步建模。 相反,当数据量不足时会使用过采样,尝试通过增加稀有样本的数量来平衡数据集。...切记,过采样会观察到稀有的样本,并根据分布函数自举生成新的随机数据。如果在过采样之后应用交叉验证,那么我们所做的就是将模型过度适应于特定的人工引导结果。...这就是为什么在过采样数据之前应该始终进行交叉验证,就像实现特征选择一样。只有对数据进行重复采样,可以将随机性引入到数据集中,以确保不会出现过拟合问题。

    1.3K100
    领券