由上面可得我们本章的重点是将给定的数据划分为不同的数据类别,是类别之间的相识度最小。
如何将数据划分不同类别
通过计算样本之间的相识度,将相识度大的划分为一个类别。...K- means算法在迭代的过程中使用所有点的均值作为新的质点(中心点),如果簇中存在异常点,将导致均值偏差比较严重。...算法的步骤如下:
q 将所有样本数据作为一个簇放到一个队列中
q 从队列中选择一个簇进行K- means算法划分,划分为两个子簇,并将子簇添加到队列中
q 循环迭代第二步操作,直到中止条件达到(聚簇数量...(3)如果距离D小于T1,表示该节点属于该聚簇,添加到该聚簇列表中
(4)如果距离D小于T2,表示该节点不仅仅属于该聚簇,还表示和当前聚簇中心点非常近,所以将该聚簇的中心点设置为该簇中所有样本的中心点...(5)如果距离D大于T1,那么节点P形成一个新的聚簇。
(6)直到列表L中的元素数据不再有变化或者元素数量为0的时候,结束循环操作。
该步骤用流程图表示如下图所示:
?