发布于 2014-09-10 00:15:17
不,尽管他们的名字是不对等的,甚至没有那么相似。
这两种方法在某些情况下都可以应用,但对于不同的事物,它们是不同的措施。杂质是决策树中常用的杂质。
发布于 2015-10-13 05:55:36
我以A和B两个人的数据为例,财富分别为1单元和3单元。吉尼杂质按维基百科=1- (1/4)^2 + (3/4)^2 = 3/8
根据维基百科,基尼系数是下图中红色和蓝色线之间的面积与蓝线下总面积的比率。
红线下面积为1/2 +1+ 3/2 =3
蓝线以下总面积=4
基尼系数= 3/4
显然,这两个数字是不同的。我会检查更多的案例,看看它们是成比例的,还是有确切的关系,并编辑答案。
编辑:我也检查了其他组合,比率不是固定的。下面是我尝试过的几个组合的列表。
发布于 2020-02-25 22:40:45
我相信它们本质上代表着同样的东西,就像所谓的:
“基尼系数”主要用于经济学,衡量的是一个数值变量的不平等,比如收入,我们可以把它当作一个回归问题--得到每个群体的“平均值”。
“吉尼杂质”主要用于决策树学习,测量一个类别变量的杂质,如颜色、性别等,这是一个分类问题--获得各组的“多数”。
听起来很像对吧?“不平等”和“杂质”都是变化的尺度,从直觉上讲,它们是相同的概念。区别是数值变量的“不等式”和范畴变量的“杂质”。两者都可以被命名为“基尼指数”。
载于R. J. & Margolin,B.H. (1971)。对分类数据的方差分析表明,由于“均值”是分类数据的一个未定义的概念,基尼将“基尼指数”从数值数据推广到分类数据,采用了两两差分而不是偏离均值的方法。TL;DR,用于分类反应的变化:
其中n_i是i第四类中的响应数,i = 1, \cdot\cdot\cdot, I几乎相同,但\frac{n}2是当今“基尼杂质”的倍,
顺便说一下,你说你可以用ROC作为方法2,在生长决策树时选择分割点,我无法得到它。你能详细说明一下吗?
PS:我同意帕斯莫德·图灵氏的回答,维基百科每个人都可以修改,而“基尼杂质”似乎是维基中的一个不完整的项目。
我也看到了他的回答中的争议,我必须说机器学习源于统计学,而统计是科学研究的基本分析工具,因此,许多概念在统计学上是一样的,尽管它们在不同的专业领域有不同的名称。吉尼指数在决策树和经济学中有着相同的名称。
https://datascience.stackexchange.com/questions/1095
复制相似问题