首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

当我使用正常准确率和K折交叉验证运行决策树算法时,得到了两个完全不同的结果

当使用正常准确率和K折交叉验证运行决策树算法时,得到两个完全不同的结果可能是由于以下原因之一:

  1. 数据集的不稳定性:决策树算法对数据集的分布和特征敏感。如果数据集在不同的运行中发生了变化,例如数据的顺序或分布发生了改变,可能会导致不同的结果。
  2. 参数设置的不同:决策树算法中有一些参数可以调整,例如树的深度、分裂准则等。如果在不同的运行中使用了不同的参数设置,可能会导致不同的结果。
  3. 随机性:决策树算法中的一些步骤可能涉及到随机性,例如特征选择时的随机抽样。如果在不同的运行中使用了不同的随机种子或随机抽样方式,可能会导致不同的结果。

为了解决这个问题,可以尝试以下方法:

  1. 确保数据集的稳定性:在运行决策树算法之前,可以对数据集进行预处理,例如随机打乱数据、去除异常值等,以确保数据集的稳定性。
  2. 统一参数设置:在进行不同运行之间,确保使用相同的参数设置,例如相同的树的深度、分裂准则等,以保持结果的一致性。
  3. 控制随机性:如果算法中存在随机性,可以通过设置相同的随机种子或使用确定性的随机抽样方式来控制随机性,以确保结果的一致性。

总结起来,当使用正常准确率和K折交叉验证运行决策树算法时,得到两个完全不同的结果可能是由于数据集的不稳定性、参数设置的不同或随机性的影响。为了解决这个问题,可以通过确保数据集的稳定性、统一参数设置和控制随机性来提高结果的一致性。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

  • 深度森林第三弹:周志华组提出可做表征学习的多层梯度提升决策树

    选自arXiv 作者:冯霁、俞扬、周志华 机器之心编译 自去年周志华等研究者提出了「深度森林」以后,这种新型的层级表征方式吸引了很多研究者的关注。今日,南京大学的冯霁、俞扬和周志华提出了多层梯度提升决策树模型,它通过堆叠多个回归 GBDT 层作为构建块,并探索了其学习层级表征的能力。此外,与层级表征的神经网络不同,他们提出的方法并不要求每一层都是可微,也不需要使用反向传播更新参数。因此,多层分布式表征学习不仅有深度神经网络,同时还有决策树! 近十年来,深层神经网络的发展在机器学习领域取得了显著进展。通过构建

    04

    【竞赛】一种提升多分类准确性的Trick

    随机森林是一种高效并且可扩展性较好的算法, K最近邻算法则是一种简单并且可解释较强的非参数化算法。在本篇文章中,我们针对多分类问题提出了一种将随机森林和KNN算法相结合框架,我们先用训练数据对随机森林模型进行训练然后用训练好的随机森林模型对我们的训练集和测试集进行预测分别得到训练集和测试集的概率矩阵,然后将测试集中的可疑样本取出并在概率空间中进行KNN训练测试,我们的框架很大地提升了测试集中可疑样本的预测准确率;此外我们从预测的概率空间对训练数据进行噪音的过滤与删除,从而进一步提升了我们模型的预测准确率。在大量实验数据的测试中,我们的方法都取得了非常显著的效果。

    03

    随机森林算法及其实现(Random Forest)

    作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。最初,我是在参加校外竞赛时接触到随机森林算法的。最近几年的国内外大赛,包括2013年百度校园电影推荐系统大赛、2014年阿里巴巴天池大数据竞赛以及Kaggle数据科学竞赛,参赛者对随机森林的使用占有相当高的比例。此外,据我的个人了解来看,一大部分成功进入答辩的队伍也都选择了Random Forest 或者 GBDT 算法。所以可以看出,Random Forest在准确率方面还是相当有优势的。

    02

    女神也用的约会决策:决策树算法实践

    今天要介绍的是一个应用非常广泛的机器学习模型——决策树。首先从一个例子出发,看看女神是怎样决策要不要约会的;然后分析它的算法原理、思路形成的过程;由于决策树非常有价值,还衍生出了很多高级版本。决策树是机器学习中强大的有监督学习模型,本质上是一个二叉树的流程图,其中每个节点根据某个特征变量将一组观测值拆分。决策树的目标是将数据分成多个组,这样一个组中的每个元素都属于同一个类别。决策树也可以用来近似连续的目标变量。在这种情况下,树将进行拆分,使每个组的均方误差最小。决策树的一个重要特性可解释性好,即使你不熟悉机器学习技术,也可以理解决策树在做什么。

    02

    【陆勤践行】机器学习分类器选择

    你知道如何为你的分类问题选择合适的机器学习算法吗?当然,如果你真正关心准确率,那么最佳方法是测试各种不同的算法(同时还要确保对每个算法测试不同参数),然后通过交叉验证选择最好的一个。但是,如果你只是为你的问题寻找一个“足够好”的算法,或者一个起点,这里有一些我这些年发现的还不错的一般准则。 你的训练集有多大? 如果训练集很小,那么高偏差/低方差分类器(如朴素贝叶斯分类器)要优于低偏差/高方差分类器(如k近邻分类器),因为后者容易过拟合。然而,随着训练集的增大,低偏差/高方差分类器将开始胜出(它们具有较低的渐

    010
    领券