开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >C4.5为连续属性选择分割点(阈值)

问C4.5为连续属性选择分割点(阈值)
EN

Stack Overflow用户

提问于 2015-03-07 11:36:49

回答 1查看 1.4K关注 0票数 1

使用“打高尔夫”或“玩球”数据(在底部列出)，选择根节点，我们查看Outlook、温度、湿度和风，看看哪一个有最高的GainRatio。

现在，将选择Outlook作为具有最高GainRatio的属性。然而，我感到困惑的是，湿度(一个连续属性)选择了具有GainRatio=0.1087，的拆分点80，而65具有更高的GainRatio=0.1285.。分裂点80确实有更高的增益，但没有GainRatio。

我见过文献粗略地说过“选择一个连续属性的分裂点，使其获得最大的收益”.这似乎违反了我的直觉，即拆分点仅基于增益，而不是在比较您选择的最高GainRatio作为下一个决策节点的所有属性时。

我希望能在这里有所澄清。

谢谢。

计算如下：

展望：

增益= 0.2467

SplitInfo = 1.5774

增益比= 0.1564

温度：

增益= 0.0292

SplitInfo = 1.5566

增益比= 0.0187

湿度：

可能分裂点={ 65、70、75、78、80、85、90、95、96 }

分裂65：

增益= 0.0477

SplitInfo = 0.3712

增益比= 0.1285

分裂80：

增益= 0.1022

SplitInfo = 0.9402

增益比= 0.1087

风：

增益= 0.0481

SplitInfo = 0.9852

增益比= 0.0488

数据：

Outlook  Temperature  Humidity  Wind    Play
--------------------------------------------
sun        hot          85      low     no
sun        hot          90      high    no
overcast   hot          78      low     yes
rain       sweet        96      low     yes
rain       cold         80      low     yes
rain       cold         70      high    no
overcast   cold         65      high    yes
sun        sweet        95      low     no
sun        cold         70      low     yes
rain       sweet        80      low     yes
sun        sweet        70      high    yes
overcast   sweet        90      high    yes
overcast   hot          75      low     yes
rain       sweet        80      high    no

EN

回答 1

Stack Overflow用户

发布于 2017-02-20 07:30:15

在选择属性时，通过考虑分支的数目和大小，利用信息增益比来减少对具有大量值的属性的偏倚。在这里，我们已经选择了属性。因此，我们应该尽量使信息收益最大化，而不是信息增益比。

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/28919094

复制

相关文章

06: 阈值分割

固定阈值分割很直接，一句话说就是像素点值大于阈值变成一类值，小于阈值变成另一类值。

CodecWang

2021/12/07

8560

C4.5决策树算法概念学习

决策树编程算法数据挖掘

•分类(Classification)就是按照某种标准给对象贴标签，再根据标签来区分归类，类别数不变。

用户3003813

2018/09/06

7010

659. 分割数组为连续子序列

给你一个按升序排序的整数数组 num（可能包含重复数字），请你将它们分割成一个或多个长度至少为 3 的子序列，其中每个子序列都由连续整数组成。如果可以完成上述分割，则返回 true ；否则，返回 false 。示例 1：输入: [1,2,3,3,4,5] 输出: True 解释: 你可以分割出这样两个连续子序列 : 1, 2, 3 3, 4, 5 示例 2：输入: [1,2,3,3,4,4,5,5] 输出: True 解释: 你可以分割出这样两个连续子序列 :

CaesarChang张旭

2021/06/17

4180

大津阈值法原理_ostu阈值分割

https java 网络安全编程算法

Otsu方法又称最大类间方差法，通过把像素分配为两类或多类，计算类间方差，当方差达到最大值时，类分割线（即灰度值）就作为图像分割阈值。Otsu还有一个重要的性质，即它完全基于对图像直方图进行计算，这也使他成为最常用的阈值处理算法之一。

全栈程序员站长

2022/09/27

1.1K0

阈值分割的OTSU算法

OTSU算法又叫最大类间方差阈值分割算法，也叫大津算法，是在1980年由日本的大津展之提出，是由最小二乘法推导而来，用于一些简单的阈值确定。

mythsman

2022/11/14

1.8K0

为类型增加选择属性

using Microsoft.Practices.Prism.ViewModel; namespace Common { /// <summary> /// 增加选择属性 /// </summary> /// <typeparam name="T"></typeparam> public class SelectableObject<T> : NotificationObject { public SelectableObject(T it

用户6362579

2019/09/29

1K0

LeetCode 659. 分割数组为连续子序列（哈希）

给你一个按升序排序的整数数组 num（可能包含重复数字），请你将它们分割成一个或多个子序列，其中每个子序列都由连续整数组成且长度至少为 3 。

Michael阿明

2021/02/19

4710

区域与图像分割 —— 阈值选取

为了将一张灰度图变成一张二值图，我们需要设定一个阈值。我们希望找到一种自动方法，对于各种不同情况（例如：不同的光照情况，或者，不同的物体表面反射性质），它都能够自适应地进行处理。对于这个问题，一种处理方式是：只分析图像中灰度值的情况，而不去管图像单元的位置。

为为为什么

2022/08/09

1.5K0

区域与图像分割 —— 阈值选取

分割数组为连续子序列 (难度:中等) - Day20201204

给你一个按升序排序的整数数组 num（可能包含重复数字），请你将它们分割成一个或多个子序列，其中每个子序列都由连续整数组成且长度至少为 3 。

前端小书童

2020/12/17

5130

决策树算法原理及应用(详细版)

决策树机器学习神经网络深度学习人工智能

C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习：给定一个数据集，其中的每一个元组都能用一组属性值来描述，每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习，找到一个从属性值到类别的映射关系，并且这个映射能用于对新的类别未知的实体进行分类。

智能算法

2020/09/24

2.5K0

决策树算法原理及应用(详细版)

决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost总结

决策树深度学习人工智能机器学习神经网络

决策树是一个有监督分类模型，本质是选择一个最大信息增益的特征值进行输的分割，直到达到结束条件或叶子节点纯度达到阈值。下图是决策树的一个示例图：

1480

2019/10/15

1.2K0

决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost总结

决策树深度学习人工智能机器学习神经网络

决策树是一个有监督分类模型，本质是选择一个最大信息增益的特征值进行输的分割，直到达到结束条件或叶子节点纯度达到阈值。下图是决策树的一个示例图：

统计学家

2019/09/03

1.7K0

决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost总结

决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost总结

决策树深度学习人工智能机器学习神经网络

决策树是一个有监督分类模型，本质是选择一个最大信息增益的特征值进行输的分割，直到达到结束条件或叶子节点纯度达到阈值。下图是决策树的一个示例图：

Python数据科学

2019/10/10

8020

决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost总结

推荐收藏 | 决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost总结

决策树深度学习人工智能机器学习神经网络

决策树是一个有监督分类模型，本质是选择一个最大信息增益的特征值进行分割，直到达到结束条件或叶子节点纯度达到阈值。下图是决策树的一个示例图：

Sam Gor

2019/10/12

7260

推荐收藏 | 决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost总结

自适应阈值分割的Bersen算法

编程算法验证码

游侠网的验证码总体来讲比较简单，字符分割比较清楚。稍微有难度的地方就是处理他的阴影。

mythsman

2022/11/14

1.7K0

自适应阈值分割的Bersen算法

【机器学习】决策树

决策树机器学习神经网络深度学习人工智能

本文介绍了 ID3，C4.5，CART三种基本的决策树模型。首先介绍了决策树的特征选择，包括信息增益，信息增益率、基尼指数、最小均方差分别对应分类树ID3、C4.5、CART、回归树CART。然后介绍了决策树建树的一般流程、对比分类树和回归树建树的区别。最后介绍了树模型中避免过拟合问题的剪枝方法，包括前剪枝和后剪枝。

yuquanle

2020/04/01

6720

决策树算法之----C4.5

决策树编程算法机器学习数据挖掘监督学习

1. C4.5算法简介 C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习：给定一个数据集，其中的每一个元组都能用一组属性值来描述，每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习，找到一个从属性值到类别的映射关系，并且这个映射能用于对新的类别未知的实体进行分类。 C4.5由J.Ross Quinlan在ID3的基础上提出的。ID3算法用来构造决策树。决策树是一种类似流程图的树结构，其中每个内部节点（非树叶节点）表示在一个属性上的测试，每个分枝代

智能算法

2018/04/03

1.5K0

决策树会有哪些特性？

决策树(Decision Tree)是机器学习中最常见的算法，因为决策树的结果简单，容易理解，因此应用超级广泛，但是机器学习的专家们在设计决策树的时候会考虑哪些特性呢？本文根据已有的决策树来分析，一个想象中万能的决策树会有哪些变化？在这以前，先总结下使用决策树的优缺点：优点天然的可解释性。这是决策树最大的优点了。可解释性有两方面的考虑。一方面，树结构的理解不需要机器学习专家来解读。另一方面，很容易转化成规则。可以处理缺失值（missing），字符型（nominal），数值

用户1332428

2018/03/09

1.3K0

数据挖掘学习笔记：分类、统计学习

决策树数据分析机器学习神经网络

ICDM（国际数据挖掘大会）2006 年从 18 种提名的数据挖掘算法中投票选出了十大算法。这 18 中提名数据挖掘算法分属 10 大数据挖掘主题，蓝色部分即为最终选出的十大算法：

四火

2022/07/18

5090

数据挖掘学习笔记：分类、统计学习

点击加载更多

相似问题

图像分割-选择正确的阈值

23

如何计算昆兰C4.5算法中数值属性的阈值？

25

使用阈值分割

31

基于阈值的图像分割像素位置选择

18

用自动阈值分割

13

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例