首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >基尼系数与基尼杂质决策树

基尼系数与基尼杂质决策树
EN

Data Science用户
提问于 2014-09-09 04:44:16
回答 6查看 67K关注 0票数 33

问题涉及决策树的建立。根据维基百科的说法,'基尼系数‘不应该与'基尼杂质’混淆。然而,这两种方法都可以在构建决策树时使用--它们可以支持我们在拆分项目集时的选择。

1)“基尼杂质”--这是一种标准的决策树分裂度量(见上面的链接);

2)“基尼系数”--每一次分裂都可以根据AUC准则进行评估。对于每个分裂场景,我们可以构建一个ROC曲线并计算AUC度量。根据维基百科AUC=(GiniCoeff+1)/2;

问题是:这两项措施是否等同?一方面,我被告知,基尼系数不应与基尼杂质混淆。另一方面,这两种方法都可以用于做同样的事情--评估决策树拆分的质量。

EN

回答 6

Data Science用户

发布于 2014-09-10 00:15:17

不,尽管他们的名字是不对等的,甚至没有那么相似。

  • Gini杂质是一种错误分类的度量,它适用于多类分类器上下文中。
  • 基尼系数适用于二进制分类,并需要一个分类器,该分类器可以在某种程度上根据正类中的可能性对示例进行排序。

这两种方法在某些情况下都可以应用,但对于不同的事物,它们是不同的措施。杂质是决策树中常用的杂质。

票数 34
EN

Data Science用户

发布于 2015-10-13 05:55:36

我以A和B两个人的数据为例,财富分别为1单元和3单元。吉尼杂质按维基百科=1- (1/4)^2 + (3/4)^2 = 3/8

根据维基百科,基尼系数是下图中红色和蓝色线之间的面积与蓝线下总面积的比率。

红线下面积为1/2 +1+ 3/2 =3

蓝线以下总面积=4

基尼系数= 3/4

显然,这两个数字是不同的。我会检查更多的案例,看看它们是成比例的,还是有确切的关系,并编辑答案。

编辑:我也检查了其他组合,比率不是固定的。下面是我尝试过的几个组合的列表。

票数 6
EN

Data Science用户

发布于 2020-02-25 22:40:45

我相信它们本质上代表着同样的东西,就像所谓的:

“基尼系数”主要用于经济学,衡量的是一个数值变量的不平等,比如收入,我们可以把它当作一个回归问题--得到每个群体的“平均值”。

“吉尼杂质”主要用于决策树学习,测量一个类别变量的杂质,如颜色、性别等,这是一个分类问题--获得各组的“多数”。

听起来很像对吧?“不平等”和“杂质”都是变化的尺度,从直觉上讲,它们是相同的概念。区别是数值变量的“不等式”和范畴变量的“杂质”。两者都可以被命名为“基尼指数”。

载于R. J. & Margolin,B.H. (1971)。对分类数据的方差分析表明,由于“均值”是分类数据的一个未定义的概念,基尼将“基尼指数”从数值数据推广到分类数据,采用了两两差分而不是偏离均值的方法。TL;DR,用于分类反应的变化:

\frac1{2n}[\sum_{i\neq j}n_in_j] = \frac{n}2 - \frac1{2n}\sum^I_{i=1}n_i^2

其中n_ii第四类中的响应数,i = 1, \cdot\cdot\cdot, I几乎相同,但\frac{n}2是当今“基尼杂质”的倍,

1 - \sum^{I}_{i=1} {p_i}^{2}

顺便说一下,你说你可以用ROC作为方法2,在生长决策树时选择分割点,我无法得到它。你能详细说明一下吗?

PS:我同意帕斯莫德·图灵氏的回答,维基百科每个人都可以修改,而“基尼杂质”似乎是维基中的一个不完整的项目。

我也看到了他的回答中的争议,我必须说机器学习源于统计学,而统计是科学研究的基本分析工具,因此,许多概念在统计学上是一样的,尽管它们在不同的专业领域有不同的名称。吉尼指数在决策树和经济学中有着相同的名称。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/1095

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文