开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

当我使用正常准确率和K折交叉验证运行决策树算法时，得到了两个完全不同的结果

当使用正常准确率和K折交叉验证运行决策树算法时，得到两个完全不同的结果可能是由于以下原因之一：

数据集的不稳定性：决策树算法对数据集的分布和特征敏感。如果数据集在不同的运行中发生了变化，例如数据的顺序或分布发生了改变，可能会导致不同的结果。
参数设置的不同：决策树算法中有一些参数可以调整，例如树的深度、分裂准则等。如果在不同的运行中使用了不同的参数设置，可能会导致不同的结果。
随机性：决策树算法中的一些步骤可能涉及到随机性，例如特征选择时的随机抽样。如果在不同的运行中使用了不同的随机种子或随机抽样方式，可能会导致不同的结果。

为了解决这个问题，可以尝试以下方法：

确保数据集的稳定性：在运行决策树算法之前，可以对数据集进行预处理，例如随机打乱数据、去除异常值等，以确保数据集的稳定性。
统一参数设置：在进行不同运行之间，确保使用相同的参数设置，例如相同的树的深度、分裂准则等，以保持结果的一致性。
控制随机性：如果算法中存在随机性，可以通过设置相同的随机种子或使用确定性的随机抽样方式来控制随机性，以确保结果的一致性。

总结起来，当使用正常准确率和K折交叉验证运行决策树算法时，得到两个完全不同的结果可能是由于数据集的不稳定性、参数设置的不同或随机性的影响。为了解决这个问题，可以通过确保数据集的稳定性、统一参数设置和控制随机性来提高结果的一致性。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

《大话机器学习算法》决策树—实战项目

如果你还不知道决策树算法，你可以选择和韩梅梅同学一起边相亲边学习决策树（手动狗头）：

00

泰坦尼克号生存预测入门

交叉验证参数 shuffle = False，正确率就提高了，why ？？？求解答

02

Machine Learning-模型评估与调参 ——嵌套交叉验证

嵌套交叉验证(nested cross validation)选择算法（外循环通过k折等进行参数优化，内循环使用交叉验证），对特定数据集进行模型选择。Varma和Simon在论文Bias in Error Estimation When Using Cross-validation for Model Selection中指出使用嵌套交叉验证得到的测试集误差几乎就是真实误差。

02

用Python预测你有没有女朋友

武林外传里佟掌柜有一句话，春天已然到来，而属于我的春天何时能够到来呢，小安如此“优秀”，怎么就是没有属于自己的另一半呢，刚巧在浏览GitHub时碰到一个预测自己会不会有女朋友的项目，觉得很有意思，于是特地与大家分享，用漫画的来讲！

02

机器学习基础篇_2/2

原始数据 –> 数据特征工程（训练数据和测试数据） –> 选择合适的算法进行学习 –> 建立模型 –> 模型评估(测试数据) –> 判断模型是否合格 –> 模型应用（一般以API的形式提供）

02

漫画，用Python预测你有没有女朋友，男朋友可以预测不

林外传里佟掌柜有一句话，春天已然到来，而属于我的春天何时能够到来呢，小安如此“优秀”，怎么就是没有属于自己的另一半呢，刚巧在浏览GitHub时碰到一个预测自己会不会有女朋友的项目，觉得很有意思，于是特地与大家分享，用漫画的来讲！

02

简析集成学习

当我们第一次接触机器学习问题的时候，面对着大量的数据和一个分类/回归的机器学习任务，我们本能地会采取这样的方式：选择一个决策树分类器或一个Lasso回归模型，将我们的数据全部灌入模型中，然后以看戏的心态看着模型一步步迭代、完成训练，随后我们看了一眼准确率，感叹一下机器学习的神奇，就感觉自己的任务完成了；随着学习的深入，我们了解到训练集/测试集的切分、交叉验证等一系列的评估手段，进而走入了“调参”的深坑，度过了许多个不眠之夜；经过多次的课程作业或实践任务，利用我们学到的方法和技巧，我们似乎已经能够选择出对某个

09

R语言决策树、随机森林、逻辑回归临床决策分析NIPPV疗效和交叉验证

临床决策(clinical decision making)是医务人员在临床实践过程中，根据国内外医学科研的最新进展,不断提出新方案，与传统方案进行比较后,取其最优者付诸实施，从而提高疾病诊治水平的过程。

00

R语言决策树、随机森林、逻辑回归临床决策分析NIPPV疗效和交叉验证

临床决策(clinical decision making)是医务人员在临床实践过程中，根据国内外医学科研的最新进展,不断提出新方案，与传统方案进行比较后,取其最优者付诸实施，从而提高疾病诊治水平的过程（点击文末“阅读原文”获取完整代码数据）。

02

你是合格的机器学习数据科学家吗？来挑战这40题吧！（附解答）

选自 Analytics Vidhya 作者：ANKIT GUPTA 机器之心编译参与：机器之心编辑部目前机器学习是最抢手的技能之一。如果你是一名数据科学家，那就需要对机器学习很擅长，而不只是三脚猫的功夫。作为 DataFest 2017 的一部分，Analytics Vidhya 组织了不同的技能测试，从而数据科学家可以就这些关键技能进行自我评估。测试包括机器学习、深度学习、时序问题以及概率。这篇文章将给出机器学习测试问题的解答。你可以通过链接获得其他测试问题及解答。深度学习：https://ww

09

你是合格的机器学习数据科学家吗？来挑战这40题吧！（附解答）

目前机器学习是最抢手的技能之一。如果你是一名数据科学家，那就需要对机器学习很擅长，而不只是三脚猫的功夫。作为 DataFest 2017 的一部分，Analytics Vidhya 组织了不同的技能测试，从而数据科学家可以就这些关键技能进行自我评估。测试包括机器学习、深度学习、时序问题以及概率。这篇文章将给出机器学习测试问题的解答。你可以通过链接获得其他测试问题及解答。

02

R语言决策树、随机森林、逻辑回归临床决策分析NIPPV疗效和交叉验证|附代码数据

临床决策(clinical decision making)是医务人员在临床实践过程中，根据国内外医学科研的最新进展,不断提出新方案，与传统方案进行比较后,取其最优者付诸实施，从而提高疾病诊治水平的过程。

02

R语言航班延误影响预测分析：lasso、决策树、朴素贝叶斯、QDA、LDA、缺失值处理、k折交叉验证

航班延误是航空公司、旅客和机场管理方面都面临的一个重要问题。航班延误不仅会给旅客带来不便，还会对航空公司和机场的运营产生负面影响。因此，对航班延误的影响因素进行预测分析，对于航空公司、旅客和机场管理方面都具有重要意义。

00

HAWQ + MADlib 玩转数据挖掘之（十一）——分类方法之决策树

一、分类方法简介 1. 分类的概念数据挖掘中分类的目的是学会一个分类函数或分类模型（也常常被称作分类器），该模型能把数据库中的数据项映射到给定类别中的某一个。分类可描述如下：输入数据

PYTHON集成机器学习：用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化

弱学习器是一个非常简单的模型，尽管在数据集上有一些技巧。在开发实用算法之前很久，Boosting 就是一个理论概念，而 AdaBoost（自适应提升）算法是该想法的第一个成功方法。

02

机器学习测试题(上)

人工智能一直助力着科技发展，新兴的机器学习正推动着各领域的进步。如今，机器学习的方法已经无处不在—从手机上的语音助手到商业网站的推荐系统，机器学习正以不容忽视的速度闯入我们的生活。以下测试题可以粗略的检测你对机器学习的了解和掌握程度。 1.以下哪一种方法最适合在n（n>1）维空间中做异常点检测。 A 正态分布图 B 盒图 C 马氏距离 D 散点图答案：C 马氏距离是是一种有效的计算两个未知样本集的相似度的多元计量方法，以卡方分布为基础，表示数据的协方差距离。与欧氏距离不同的是它考虑到各种特性之间的联

R语言神经网络与决策树的银行顾客信用评估模型对比可视化研究

在数字化时代，顾客信用评估成为商业决策中的重要一环。无论是金融机构的信贷审批，还是电商平台的用户信用管理，都需要对顾客的信用状况进行准确评估（点击文末“阅读原文”获取完整代码数据）。

01

深度森林第三弹：周志华组提出可做表征学习的多层梯度提升决策树

选自arXiv 作者：冯霁、俞扬、周志华机器之心编译自去年周志华等研究者提出了「深度森林」以后，这种新型的层级表征方式吸引了很多研究者的关注。今日，南京大学的冯霁、俞扬和周志华提出了多层梯度提升决策树模型，它通过堆叠多个回归 GBDT 层作为构建块，并探索了其学习层级表征的能力。此外，与层级表征的神经网络不同，他们提出的方法并不要求每一层都是可微，也不需要使用反向传播更新参数。因此，多层分布式表征学习不仅有深度神经网络，同时还有决策树! 近十年来，深层神经网络的发展在机器学习领域取得了显著进展。通过构建

04

AI - 决策树模型

决策树的思想来源可以追溯到古希腊时期，当时的哲学家们就已经开始使用类似于决策树的图形来表示逻辑推理过程。然而，决策树作为一种科学的决策分析工具，其发展主要发生在20世纪。

01

MADlib——基于SQL的数据挖掘解决方案（24）——分类之决策树

决策树（Decision Tree）又称为分类树（Classification Tree），是最为广泛的归纳推理算法之一，处理类别型或连续型变量的分类预测问题，可以用图形和if-then的规则表示模型，可读性较高。决策树模型通过不断地划分数据，使因变量的差别最大，最终目的是将数据分类到不同的组织或不同的分枝，在因变量的值上建立最强的归类。

02

【竞赛】一种提升多分类准确性的Trick

随机森林是一种高效并且可扩展性较好的算法, K最近邻算法则是一种简单并且可解释较强的非参数化算法。在本篇文章中,我们针对多分类问题提出了一种将随机森林和KNN算法相结合框架,我们先用训练数据对随机森林模型进行训练然后用训练好的随机森林模型对我们的训练集和测试集进行预测分别得到训练集和测试集的概率矩阵,然后将测试集中的可疑样本取出并在概率空间中进行KNN训练测试,我们的框架很大地提升了测试集中可疑样本的预测准确率;此外我们从预测的概率空间对训练数据进行噪音的过滤与删除,从而进一步提升了我们模型的预测准确率。在大量实验数据的测试中,我们的方法都取得了非常显著的效果。

03

监督学习6大核心算法精讲与代码实战

监督学习线性回归、逻辑回归、决策树、支持向量机、K近邻、朴素贝叶斯算法精讲，模型评估精讲

02

机器学习中需要知道的一些重要主题

机器学习现在是一个热门话题，每个人都在尝试获取有关该主题的任何信息。有了关于机器学习的大量信息，人们可能会不知所措。在这篇文章中，我列出了你需要了解的一些机器学习中最重要的主题，以及一些可以帮助你进一步阅读你感兴趣的主题的资源。

01

预测建模、监督机器学习和模式分类概览

模式分类（pattern classification）和机器学习（machine learning）是非常热的话题，几乎在所有的现代应用程序中都得到了应用：例如邮局中的光学字符识别（OCR），电子邮件过滤，超市条形码扫描，等等。在这篇文章中，我会简要描述一个典型的监督学习任务的主要概念，这些概念将作为将来的文章和实现各种学习算法的基础。机器学习和模式分类预测建模是建立一个能够进行预测的模型的通用概念。通常情况下，这样的模型包括一个机器学习算法，以便从训练数据集中学习某些属性做出这些预测。预测建模可

05

Kaggle 实战：Ghouls, Goblins, and Ghosts

本文介绍了使用机器学习算法对数据集进行分类，并使用随机森林算法进行预测。通过对比不同算法的效果，最终选择随机森林算法作为最优分类器。同时，文章还探讨了特征选择和特征重要性分析，并使用特征重要性作为分类器选择的依据。最后，文章还介绍了如何使用随机森林算法对新的数据点进行分类预测。

00

决策树的构建原理

决策树（Decision Tree）是一种简单但是广泛使用的分类预测模型。通过训练数据构建决策树，可以高效的对未知的数据进行分类并作出决策。决策树有两大优点，一是决策树模型可以读性好，具有描述性，有助于人工分析；二是效率高，决策树只需要一次构建，反复使用，但是预测的最大计算次数不能超过决策树的深度。一个简单的决策树例子如下所示：

04

「R」逻辑回归、决策树、随机森林

有监督学习基于一组包含预测变量和输出变量的样本单元。将全部数据分为一个训练数据集和一个验证数据集，其中训练集用于建立预测模型，验证集用于测试模型的准确性。

03

预测建模、监督机器学习和模式分类概览

模式分类（pattern classification）和机器学习（machine learning）是非常热的话题，几乎在所有的现代应用程序中都得到了应用：例如邮局中的光学字符识别（OCR），电子邮件过滤，超市条形码扫描，等等。在这篇文章中，我会简要描述一个典型的监督学习任务的主要概念，这些概念将作为将来的文章和实现各种学习算法的基础。机器学习和模式分类预测建模是建立一个能够进行预测的模型的通用概念。通常情况下，这样的模型包括一个机器学习算法，以便从训练数据集中学习某些属性做出这些预测。预测建模可

04

万字长文总结机器学习的模型评估与调参，附代码下载

选自 Python-Machine-Learning-Book On GitHub

04

随机森林算法及其实现（Random Forest）

作为新兴起的、高度灵活的一种机器学习算法，随机森林（Random Forest，简称RF）拥有广泛的应用前景，从市场营销到医疗保健保险，既可以用来做市场营销模拟的建模，统计客户来源，保留和流失，也可用来预测疾病的风险和病患者的易感性。最初，我是在参加校外竞赛时接触到随机森林算法的。最近几年的国内外大赛，包括2013年百度校园电影推荐系统大赛、2014年阿里巴巴天池大数据竞赛以及Kaggle数据科学竞赛，参赛者对随机森林的使用占有相当高的比例。此外，据我的个人了解来看，一大部分成功进入答辩的队伍也都选择了Random Forest 或者 GBDT 算法。所以可以看出，Random Forest在准确率方面还是相当有优势的。

02

万字长文总结机器学习的模型评估与调参，附代码下载

“管道工作流”这个概念可能有点陌生，其实可以理解为一个容器，然后把我们需要进行的操作都封装在这个管道里面进行操作，比如数据标准化、特征降维、主成分分析、模型预测等等，下面还是以一个实例来讲解。

02

《自然语言处理实战入门》 ---- 笔试、面试题：机器学习基础(51-100)

若 λ 较大时，意味着模型复杂度较低，这时候容易发生欠拟合，对应偏差增大，方差减小。做个简单总结：

01

【推荐收藏】模型评估与调参（Python版）

“管道工作流”这个概念可能有点陌生，其实可以理解为一个容器，然后把我们需要进行的操作都封装在这个管道里面进行操作，比如数据标准化、特征降维、主成分分析、模型预测等等，下面还是以一个实例来讲解。

03

MLK | 机器学习常见算法优缺点了解一下

2、使用基于决策树的combination算法，如bagging算法，randomforest算法，可以解决过拟合的问题。

04

机器学习常见算法优缺点总结！

2、使用基于决策树的combination算法，如bagging算法，randomforest算法，可以解决过拟合的问题。

06

机器学习常见算法及优缺点！

2、使用基于决策树的combination算法，如bagging算法，randomforest算法，可以解决过拟合的问题。

03

Machine Learning-模型评估与调参（完整版）

选自 Python-Machine-Learning-Book On GitHub

01

决策树算法原理(下)

在决策树算法原理(上)这篇里，我们讲到了决策树里ID3算法，和ID3算法的改进版C4.5算法。对于C4.5算法，我们也提到了它的不足，比如模型是用较为复杂的熵来度量，使用了相对较为复杂的多叉树，只能处理分类不能处理回归等。对于这些问题， CART算法大部分做了改进。CART算法也就是我们下面的重点了。由于CART算法可以做回归，也可以做分类，我们分别加以介绍，先从CART分类树算法开始，重点比较和C4.5算法的不同点。接着介绍CART回归树算法，重点介绍和CART分类树的不同点。然后我们讨论CART树的建树算法和剪枝算法，最后总结决策树算法的优缺点。

01

女神也用的约会决策：决策树算法实践

今天要介绍的是一个应用非常广泛的机器学习模型——决策树。首先从一个例子出发，看看女神是怎样决策要不要约会的；然后分析它的算法原理、思路形成的过程；由于决策树非常有价值，还衍生出了很多高级版本。决策树是机器学习中强大的有监督学习模型，本质上是一个二叉树的流程图，其中每个节点根据某个特征变量将一组观测值拆分。决策树的目标是将数据分成多个组，这样一个组中的每个元素都属于同一个类别。决策树也可以用来近似连续的目标变量。在这种情况下，树将进行拆分，使每个组的均方误差最小。决策树的一个重要特性可解释性好，即使你不熟悉机器学习技术，也可以理解决策树在做什么。

02

机器分类方法如何用在医学诊断案例——基于R的实现

1．引言随着统计科学的日益发展，其对其他学科的渗透作用日益增强，数据分析方法在医学、生物学、社会学等各个学科中得到了广泛的应用，本文试图对收集到的某个临床医学数据运用决策树、神经网络、支持向量机、随机森林等各种现代分类方法进行分析，以佐证数据挖掘对其他学科的重要意义；另一方面，就各种现代分类方法的实际效果进行对比。笔者从网上收集到关于某个脊椎病变的临床医学数据，该数据集为真实公开的非人造数据，公布地址为：http://archive.ics.uci.edu/ml/datasets/Vertebral+Co

05

万字长文总结机器学习的模型评估与调参

选自 Python-Machine-Learning-Book On GitHub

00

突破最强算法模型，LightGBM ！！!

LightGBM呢，是微软开发的一个机器学习工具，擅长处理大数据和高维数据。LightGBM是基于决策树的提升方法，通过不断调整和优化预测模型来提高精度。与其他算法相比，LightGBM速度更快、内存占用更少、准确率更高，并且能处理类别特征。

01

决策树学习笔记（三）：CART算法，决策树总结

推荐导读：本篇为树模型系列第三篇，旨在从最简单的决策树开始学习，循序渐进，最后理解并掌握复杂模型GBDT，Xgboost，为要想要深入了解机器学习算法和参加数据挖掘竞赛的朋友提供帮助。

04

决策树学习笔记（三）：CART算法，决策树总结

推荐导读：本篇为树模型系列第三篇，旨在从最简单的决策树开始学习，循序渐进，最后理解并掌握复杂模型GBDT，Xgboost，为要想要深入了解机器学习算法和参加数据挖掘竞赛的朋友提供帮助。

04

用小样本数据集进行机器学习建模的一些建议

在实际研究中我们很多时候会碰到小数据集，特征数量远远大于样本量，比如我们希望预测患者对某种新疗法的反应。每个患者都包含了许多电子病历中的特征，但由于参加临床试验的患者数量有限，弄清楚哪些预测因素与对治疗真正相关就变得颇具挑战。在大样本的研究中，我们可以留出足够多的患者来测试模型的结果。但是对于一项小样本研究就会存在一些缺陷，比如为了留出验证集，用于训练模型的数据点就会进一步被压缩，导致信息丢失等等。

03

分类回归树算法---CART

一、算法介绍分类回归树算法：CART(Classification And Regression Tree)算法也属于一种决策树，和之前介绍了C4.5算法相类似的决策树。CART采用一种二分递归分割的技术，将当前的样本集分为两个子样本集，使得生成的的每个非叶子节点都有两个分支。因此，CART算法生成的决策树是结构简洁的二叉树。 CART算法是由以下两部组成：（1）决策树生成：基于训练数据集生成的决策树，生成的决策树要尽量大；（2）决策树剪枝：用验证数据集对已生成的树进行剪枝并

08

统计学习及监督学习概论

统计学习（statistical learning）是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习（statistical machine learning）。

03

【陆勤践行】机器学习分类器选择

你知道如何为你的分类问题选择合适的机器学习算法吗？当然，如果你真正关心准确率，那么最佳方法是测试各种不同的算法（同时还要确保对每个算法测试不同参数），然后通过交叉验证选择最好的一个。但是，如果你只是为你的问题寻找一个“足够好”的算法，或者一个起点，这里有一些我这些年发现的还不错的一般准则。你的训练集有多大？如果训练集很小，那么高偏差/低方差分类器（如朴素贝叶斯分类器）要优于低偏差/高方差分类器（如k近邻分类器），因为后者容易过拟合。然而，随着训练集的增大，低偏差/高方差分类器将开始胜出（它们具有较低的渐

如何选择机器学习算法

如何针对某个分类问题决定使用何种机器学习算法？当然，如果你真心在乎准确率，最好的途径就是测试一大堆各式各样的算法（同时确保在每个算法上也测试不同的参数），最后选择在交叉验证中表现最好的。倘若你只是想针对你的问题寻找一个“足够好”的算法，或者一个起步点，这里给出了一些我觉得这些年用着还不错的常规指南。训练集有多大？如果是小训练集，高偏差/低方差的分类器（比如朴素贝叶斯）要比低偏差/高方差的分类器（比如k最近邻）具有优势，因为后者容易过拟合。然而随着训练集的增大，低偏差/高方差的分类器将开始具有优势（它们拥

使用折外预测（oof）评估模型的泛化性能和构建集成模型

机器学习算法通常使用例如 kFold等的交叉验证技术来提高模型的准确度。在交叉验证过程中，预测是通过拆分出来的不用于模型训练的测试集进行的。这些预测被称为折外预测（out-of-fold predictions）。折外预测在机器学习中发挥着重要作用，可以提高模型的泛化性能。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭