聚类分析及python实现（一）

文章来源：企鹅号 - 三行数学

各位筒子们，大家好，好久不见，有没有一种“周五思君不见君，共饮长江水”的感觉啊。姬莫君在这里给各位小主们道个歉，由于我工作原因断更了一次，不仅耽误了筒子们学习知识的宝贵时间，而且老板答应给我加的鸡腿也不翼而飞了.

为了不让到嘴的鸡腿变成“飞腿”我决定从今以后不断更.

今天给筒子们带来的干货是：K-均值聚类算法，它是一种无监督的机器学习算法. 什么是无监督呢？小明同学：今天自习课，班主任请假，其他人在学习，我和毛毛双排玩王者农药，还用阿珂拿了五杀. 小明同学的解释很到位，老师不在，没人监督情况下，班级学生分为两类，一类是好好学习的其他同学，一类是小明和毛毛为马化腾冲业绩、为队友冲战绩的“垫境选手”.

由此可见，无监督的意思就是将相似的对象自动归到同一组中，有点像全自动分类，也就是事先我们没有给一组数据做任何的标签(标签是什么ghost）. 每一组中的对象越相似，聚类效果越好，就像 "物以类聚，人以群分"及“狼狈为奸”（你怎么尬说都行），有共同特点大家才能好好一起搞事情嘛.

因此聚类也被称为无监督分类. K-均值算法的工作流程非常简单大致如下：

挑选K个初始点作为起始的质心（也就是中心点，一般随机选择）

为数据集中的每个点找到距离它最近的质心，并把这个点分给这个组类（去质心那里拜码头）

将每个组类的所有点进行取平均值作为新的质心（重新挑老大）

从上面三个步骤我们可以看到，“最近”的质心，也就是需要进行距离计算，当然使用不同的距离计算方法，得到的聚类效果也是不同的，在下一讲，我们会专门介绍几种距离计算方法.

K-均值优点是容易实现，就是取平均值嘛；缺点是在处理大规模数据时候收敛速度较慢；适合的数据类型：数值型数据。

好了本期姬莫君对于K-均值的简单介绍到这里就结束了，如果您觉得对您有一点帮助，就为姬莫君点个赞吧.

发表于: 2018-11-162018-11-16 19:03:42
原文链接：https://kuaibao.qq.com/s/20181116A1P7VE00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

聚类分析及python实现（一）

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐