首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

讨论k值以及初始聚类中心对聚类结果的影响_K均值聚类需要标准化数据吗

摘要:进入二十一世纪以来,科学技术的不断发展,使得数据挖掘技术得到了学者越来越多的关注。数据挖掘是指从数据库中发现隐含在大量数据中的新颖的、潜在的有用信息和规则的过程,是一种处理数据库数据的知识发现。数据挖掘一种新兴的交叉的学科技术,涉及了模式识别、数据库、统计学、机器学习和人工智能等多个领撤分类、聚类、关联规则是数据挖掘技术几个主要的研究领域。在数据挖掘的几个主要研究领域中,聚类是其中一个重要研究领域,对它进行深入研究不仅有着重要的理论意义,而且有着重要的应用价值。聚类分析是基于物以类聚的思想,将数据划分成不同的类,同一个类中的数据对象彼此相似,而不同类中的数据对象的相似度较低,彼此相异。目前,聚类分析已经广泛地应用于数据分析、图像处理以及市场研究等。传统的K均值聚类算法(K-Means)是一种典型的基于划分的聚类算法,该聚类算法的最大的优点就是操作简单,并且K均值聚类算法的可伸缩性较好,可以适用于大规模的数据集。但是K均值聚类算法最主要的缺陷就是:它存在着初始聚类个数必须事先设定以及初始质心的选择也具有随机性等缺陷,造成聚类结果往往会陷入局部最优解。论文在对现有聚类算法进行详细的分析和总结基础上,针对K均值聚类算法随机选取初始聚类中也的不足之处,探讨了一种改进的选取初始聚类中心算法。对初始聚类中心进行选取,然后根据初始聚类中也不断迭代聚类。改进的聚类算法根据一定的原则选择初始聚类中心,避免了K均值聚类算法随机选取聚类中心的缺点,从而避免了聚类陷入局部最小解,实验表明,改进的聚类算法能够提高聚类的稳定性与准确率。

03

spssk均值聚类报告_K均值聚类

机器学习中的k均值聚类属于无监督学习,所谓k指的是簇类的个数,也即均值向量的个数。算法初始状态下,要根据我们设定的k随机生成k个中心向量,随机生成中心向量的方法既可以随机从样本中抽取k个样本作为中心向量,也可以将中心向量固定在样本的维度范围之内,避免中心向量过偏远离大多数样本点。然后每个样本点需要与k个中心向量分别计算欧氏距离,取欧氏距离最小的中心向量作为该样本点的簇类中心,当第一轮迭代完成之后,中心向量需要更新,更新的方法是每个中心向量取前一次迭代所得到各自簇类样本点的均值,故称之为均值向量。迭代终止的条件是,所有样本点的簇类中心都不在发生变化。 在spss中导入的二维数据如下所示:

02
领券