首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

什么是判别分析?如何应用?

判别分析最初应用于考古学, 例如要根据挖掘出来的人头盖骨的各种指标来判别其性别年龄等.。慢慢的成为一种常用的分类分析方法,其通过已知的分类情况,根据数据的特征对其他研究对象进行预测归类。

原理说明

判别分析时,通常需要将数据分为两部分。一部分是训练模型数据,一部分是验证模型数据。首先通过训练集数据训练拟合出一个模型。接着再利用另一部分验证模型效果。如果在测试集数据上,也表现良好,那么说明拟合模型非常好。后面可以利用此模型用于预测其它“没有确定类别”的数据,来预测新数据的类别情况。

应用场景

判别分析与回归分析相似,可用于确定哪些预测变量与因变量相关,并在给定预测变量的某些值的情况下预测因变量的值。

在实际生活中,判别分析也被广泛用于预测事物的类别归属。

企业营销中,营销人员可通过已有的客户特征数据(如消费金额、消费频次、购物时长、购买产品种类等),预测当前的消费者属于哪种类型的顾客(款式偏好型、偏重质量型、价格敏感型...),并根据其特点有针对性的采取有效的营销手段。

或是根据各成分含量指标,判断白酒的品牌或水果的产地等。

除此以外,判别分析还可与聚类分析结合使用。比如,银行的贷款部门想要在发放贷款之前,可通过此方法判断申请人是否具有良好的信用风险。

案例应用

1、背景

本次数据使用最为经典的鸢尾花卉数据集。此数据是判别分析中经典的案例数据。该数据是利用花萼长、花萼宽、花瓣长、花瓣宽共4个特征,来预测花的种类(共3类:分别是刚毛鸢尾花、变色鸢尾花和佛吉尼亚鸢尾花;下面全部是类别1,类别2和类别3表示)。数据共有150个样本,包括4个特征和一个预测类别。

2、操作步骤

使用路径:SPSSAU进阶方法判别分析

3、结果分析

模型训练集和测试集分布

上表是对训练集和测试集整体数据分布的说明,包括样本量、样本比例。

判别函数

上表展示的是各类别对应的判别函数,结合判别函数和判别特征(自变量X),可计算得到判别分类结果,用于判别样本应该属于哪个类别。

三类表达式分别为:

类别1 = -674.591 + 21.420*花萼长 + 14.079*花萼宽-12.674*花瓣长-10.461*花瓣宽

类别2 = -573.567 + 18.194*花萼长 + 2.091*花萼宽-1.226*花瓣长 + 4.804*花瓣宽

类别3 = -774.160 + 17.001*花萼长 + 0.653*花萼宽 + 2.060*花瓣长 + 14.192*花瓣宽

训练集预测准确率

判别分析后可通过正确率,召回率和F1-score共三个指标判断训练集数据预测准确情况,三个指标值都是越大越好,SPSSAU建议此三个指标均大于70%。

上表显示,三类的预测准确率均超过90%,说明训练集有很高的预测准确率。

测试集预测准确率

判别分析后更重要的在于查看测试集数据模型预测准确情况。

上表展示测试集即30个样本数据的预测准确率;上表显示整体正确率为100%。也即说明测试集显示数据全部预测准确,没有预测出错的现象。模型拟合质量非常高。

4、确定未分类数据组别

确定了最终的模型,即可将其他未分类数据分别代入3个公式得到每个判别类别的判别分,对应分值最高的类别,就为最终归属类别。最终将得到的结果,整理为下表:

总结:编号1样本,最终归类为类别1,属于刚毛鸢尾花。编号2样本,最终归类为类别3,属于佛吉尼亚鸢尾花。编号3样本,最终归类为类别3,属于佛吉尼亚鸢尾花。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190826A07CEJ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券