Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >聚类分析并不靠谱

聚类分析并不靠谱

作者头像
许卉
发布于 2019-07-15 09:24:38
发布于 2019-07-15 09:24:38
1.3K0
举报
文章被收录于专栏:Data AnalystData Analyst

距离定义不同,聚类结果不同

聚类分析中,距离有两种定义方式,即:

  • 依据远近:即距离的远近程度,远即距离远,近即距离近;
  • 依据相似程度:即相似程度低为距离远,相似程度高为距离近

相同的聚类分析中,距离的定义方式不同,得到的聚类结果也会不同,实际的数据分析工作中,为了便于解释结果我更喜欢使用相似程度去定义聚类分析中的距离

聚类分析中的坑

如下为聚类分析过程中尤其要注意的点:

  • X间不可相关

回归模型中自变量间不能具有相关性,同样,聚类分析中的自变量间也不可以相关,其实,聚类分析中对自变量相关性的把控比回归模型还要严格

  • 剔除量纲

聚类分析前需要剔除量纲的影响;

  • 正态分布

由于聚类分析的结果不稳定,导致聚类分析非常脆弱,对于数据分布非常敏感,所以,聚类分析前需要精确的探索数据分布。快速聚类有一个基本假定,即参加聚类分析的变量必须服从正态分布,如果是非正态分布,则只能使用非参聚类去进行聚类的分析;

  • 不要异常值

聚类分析为探索性学习,即模式发现,通常模式发现技术都会有一个共同的特点,即对数据异常值非常敏感,故以聚类分析为代表的模式发现技术最大的要求就是数据中不能够出现异常值回归模型中我习惯使用盖帽法去处理异常值并对分布进行合适的变换,通常选择3倍标准差外,由于聚类分析对数据要求较高,所以聚类分析需要选择2倍标准差外进行处理;

  • 记得抽样

由于聚类分析结果容易变动,样本量过大则聚类图形会呈现密集分布,无法辨清规律,所以最好不要让所有的观测都参与聚类分析,而应该在分析前进行数据抽样,选择具有充分代表性的观测去进行聚类,一般我会将样本量控制在1000以内去进行绘图。聚类后还需要与自己的常识进行对比,看聚类的结论与常识是否契合,如果没有问题后再去适当的扩大样本量;

  • 变量勿多

距离将每行的观测看做一个向量,向量数目越多,向量的维度便会越高,计算也会越复杂,聚类分析要求参加聚类分析的变量最好不要太多,我的经验是不要超过10个

客户画像中的RFM模型不仅仅有三个指标

营销时经常会使用些经典的模型对用户进行画像,例如可以选择用传统的RFM模型对客户进行细分,也可以在此基础上增加些客户相关的维度,例如航空公司在构建客户细分模型时,对传统的RFM指标进行了调整,确定了LRFMC这五个指标作为参数,其中L代表客户关系长度、C代表折扣系数等。

也就是说,如果不进行变量选择直接指定这几个变量进行客户画像的描述是可以的,如果变量很多,则只能是使用变量聚类的方法,变量聚类与聚类分析没有任何关系,变量聚类仅仅是为了降低变量间相关性的一种手段,仅此而已

SAS中怎么实现聚类

SAS中通常使用cluster过程步去实现谱系聚类、系统聚类、分层聚类,其中的method参数代表类间距离算法,包括最短距离法、最常距离法、组间平均值法、组内平均连接法以及重心法,实际做的过程中,还是需要多次尝试

聚类分析其实并不靠谱

聚类分析的思路是,聚类前需要决定要分的类数,找出类中心,将距离每个类中心近的点归到一起,然后再次选择类中心,重新进行归类,反复循环,直至类不再变动为止。我觉得这种方式有两个明显的漏洞

  • 聚类前就需要知道类别数;
  • 聚类前就需要知道类中心

这两件事几乎不可能完成,所以泛泛的看这种聚类非常不靠谱,但是却没有什么替代聚类分析的好办法,能做的只是在技术环节下功夫,例如,慎重的选择类数、较好的找出初始类中心等等。

还需要注意的是,通常使用的K均值聚类的前提是数据为正态分布,如果数据不是正态分布,则需要使用SAS中的modeclus过程步,即非参聚类的方法去进行聚类分析,我觉得,如果数据非正态分布,聚类的效果就会差很多,所以,一般情况下, 我会使用严格的正态变换将数据变为正态分布后,再使用K-means的方法进行聚类分析

类间差别越大越好

聚类分析后还需要进行类别轮廓处理,即对分完的每一类的特征进行描述。由于聚类分析的样本中没有Y,假如数据分为四类,如果为第一类则数据标记为1否则标记为0,按照这样的标记方式可以得到四个0-1形式的变量,用这四个变量去构建逻辑回归模型,以此去分析出哪一类别起的作用较大,逻辑回归模型在这里的作用即辅助聚类分析去进行轮廓描述。

分完类后,类间差别越大越好,检验类间差异大小的办法可以利用方差分析,即用类别变量作为分类变量、用任意的输入变量作为自变量

经典的聚类分析标签

聚类分析有很多有意思的经典标签,例如:

  • 依据消费行为可以将人分为喜欢喜欢捡便宜的人、偏执性的只认准正品的人、冲动消费狂、、疲倦的父母、丁克族
  • 依据店铺服务形式可将店铺分为低成本杂货店、精品店与全服务型超市等三类
  • 依据穿衣风格将人群分为皮衣皮帽、时尚派与实用派三类
  • 保险公司依据客户产品购买力将客户分为青年精英、初为人母、财务自由、中年女士与居家老人等几类
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-04-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Data Analyst 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
客户画像中的聚类分析
实际工作中,最常使用的当属回归类模型,其次便是客户画像。即便是评分模型也会涉及到客户画像,由于首富客户的违约特征与普通百姓不同,故需进行区分,信用分池即为客户画像。
许卉
2019/07/15
1.7K0
客户画像中的聚类分析
原理+代码|详解层次聚类及Python实现
聚类分析是研究分类问题的分析方法,是洞察用户偏好和做用户画像的利器之一。聚类分析的方法非常多,能够理解经典又最基础的聚类方法 —— 层次聚类法(系统聚类) 的基本原理并将代码用于实际的业务案例是本文的目标,同时这也会为理解后续与聚类相关的推文如 K-Means 等打下基础是。
刘早起
2020/12/07
5.1K0
无监督学习 聚类分析②划分聚类分析
同样是聚类分析,上一次介绍的是层次聚类分法,这种方法输出的聚类树状图是其最大的优点,但是层次分析法的缺点就在于适合的样本数比较小,大概在150个左右。所以,当我们面临更大的数据时,划分聚类法就是更好的选择,虽然没有树状聚类图,却而代之的是圈型的聚类图。
用户1359560
2018/08/27
8430
无监督学习 聚类分析②划分聚类分析
SPSS(十五)spss之聚类分析(图文+数据集)[通俗易懂]
按照个体(记录)的特征将它们分类,使同一类别内的个体具有尽可能高的同质性,而类别之间则具有尽可能高的异质性。 为了得到比较合理的分类,首先要采用适当的指标来定量地描述研究对象之间的联系的紧密程度。
全栈程序员站长
2022/11/02
9.8K1
SPSS(十五)spss之聚类分析(图文+数据集)[通俗易懂]
基于SPSS的聚类分析原理概述[通俗易懂]
在声音样本数目比较多的情况下,直接进行成对比较法,工作量非常大,且评价者容易疲劳,在很大程度上影响评价结果的一致性和准确性。对于这种情况,采用聚类分析,从 30 个声音样本中选择有代表性的样本进行主观评价试验,大大降低了主观评价试验的工作量1。
全栈程序员站长
2022/11/19
2.7K0
基于SPSS的聚类分析原理概述[通俗易懂]
统计学中常用的数据分析方法汇总
描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。
统计学家
2019/08/23
3.6K0
【聚类分析】典型行业数据实践应用!
1. 聚类产生的类别作为一个新的字段加入其他的模型搭建过程中,作为细分群体的建模依据。
1480
2019/07/15
3.7K0
【聚类分析】典型行业数据实践应用!
笔记︱多种常见聚类模型以及分群质量评估(聚类注意事项、使用技巧)
版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/51611519
悟乙己
2019/05/28
5.8K0
机器学习 | KMeans聚类分析详解
大量数据中具有"相似"特征的数据点或样本划分为一个类别。聚类分析提供了样本集在非监督模式下的类别划分。聚类的基本思想是"物以类聚、人以群分",将大量数据集中相似的数据样本区分出来,并发现不同类的特征。
数据STUDIO
2021/06/24
4.3K0
该怎么检测异常值?
原文作者: Jacob Joseph 原文链接:https://blog.clevertap.com/how-to-detect-outliers-using-parametric-and-n
机器学习AI算法工程
2018/03/13
2.3K0
该怎么检测异常值?
Python用K-Means均值聚类、LRFMC模型对航空公司客户数据价值可视化分析指标应用|数据分享
信息时代的来临使得企业营销焦点从产品中心转向客户中心,客户关系管理成为企业的核心问题(点击文末“阅读原文”获取完整代码数据)。
拓端
2024/12/31
1580
Python用K-Means均值聚类、LRFMC模型对航空公司客户数据价值可视化分析指标应用|数据分享
聚类分析的简单理解(1)
各位小伙伴们大家好,这几天我在学习聚类分析这个统计方法,所以希望通过这个文章来概括下自己所学的知识,并且希望大家可以指出不足 1:什么是聚类分析? 聚类分析(cluster analysis)是一种
云时之间
2018/04/11
8180
聚类分析的简单理解(1)
数据分析之聚类分析
RFM分析只能对客户的行为进行分析,包含的信息量有点少。一般来说,对人群进行分类,要综合考虑其行为、态度、模式以及相关背景属性,通过使用特定的方法,发现隐藏在这些信息背后的特征,将其分成几个类别,每一类具有一定的共性,进而做出进一步的探索研究。这个分类的过程就是聚类分析。
黄成甲
2018/09/12
2.1K0
数据分析之聚类分析
推荐收藏 | 统计学常用的数据分析方法大总结!
描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。
1480
2019/10/10
9720
推荐收藏 | 统计学常用的数据分析方法大总结!
推荐收藏 | 统计学 常用的数据分析方法大总结!
描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。
Sam Gor
2019/09/09
1.5K0
R语言主成分PCA、因子分析、聚类对地区经济研究分析重庆市经济指标|附代码数据
最近我们被客户要求撰写关于地区经济研究分析的研究报告,包括一些图形和统计输出。 建立重庆市经济指标发展体系,以重庆市一小时经济圈作为样本,运用因子分析方法进行实证分析,在借鉴了相关评价理论和评价方法的基础上,本文提取出经济规模、人均发展水平、经济发展潜力、3个主因子,从重庆市统计年鉴选取8个指标构成的指标体系数据对重庆市38个区县经济发展基本情况的八项指标进行分析,并基于主因子得分矩阵对重庆市38个区县进行聚类分析。
拓端
2022/12/12
7330
聚类分析
聚类是一种无监督学习,聚类的方法几乎可以应用于所有对象。 聚类分析根据聚类算法将数据或样本对象划分成两个以上的子集。 每一个子集称为一个簇,簇中对象因特征属性值接近而彼此相似。不同簇对象之间则彼此存在差异。 把相似的对象归于统一组,不同对象归于不同组。需要一种相似度的计算方法
爱编程的小明
2022/09/05
1.7K0
聚类分析
手中无y,心中有y——聚类算法的正确建模方式
聚类算法是属于无监督的机器学习方法;机器学习里把算法分为有监督和无监督的算法,所谓有监督,即我想研究的数据集有目标数据,白话点就是建模里大家常说的那个y,如我想基于公司数据库已经有的相关数据集训练一个模型,用来预测客户是否会流失,从数据库中得到的数据集里是有一个特征(一列)是客户是否流失的,可能1代表流失,0代表不会流失;但业务的初期或者数据库中没有该特征,即手中无y,那该怎么办?如对客户进行价值分群,此时对于这种目标明确,但确实缺少y这一列这种分析需求,可考虑聚类算法来实现。
CDA数据分析师
2021/12/09
1.1K0
手中无y,心中有y——聚类算法的正确建模方式
全网最全数据分析师干货-python篇
Pickle模块读入任何Python对象,将它们转换成字符串,然后使用dump函数将其转储到一个文件中——这个过程叫做pickling。反之从存储的字符串文件中提取原始Python对象的过程,叫做unpickling。
AI研习社
2019/09/04
1.8K0
R语言实现常用的5种分析方法(主成分+因子+多维标度+判别+聚类)
R语言多元分析系列之一:主成分分析 主成分分析(principal components analysis, PCA)是一种分析、简化数据集的技术。它把原始数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是在处理观测数目小于变量数目时无法发挥作用,例如基
CDA数据分析师
2018/02/08
8.8K0
R语言实现常用的5种分析方法(主成分+因子+多维标度+判别+聚类)
推荐阅读
相关推荐
客户画像中的聚类分析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档