我对聚类评估中的SSB计算有点困惑。

哪里
|Ci| is the size of cluster i
ci is the centroid of cluster i
c is the centroid of the overall data 这个“整体数据的质心”是什么?在任何地方,它都被提到为总体数据的中心。
这是我们计算的初始质心吗?
编辑
从anony-Mousse的回答中得到更多的澄清。
假设我们已经在聚类中完成了一次迭代。
step 1: k =2, select random centroids(Let my random centroids be (2,1,3) and (3,1,1))
step 2: do clustering(Now 2 clusters are formed)
step 3: then find new centroids(by averaging data for each cluster, After averaging let my new clusters be (2.3,1.5,3) and (6.7,1,2))所以现在我需要计算SSB。
现在我需要计算整个数据的质心(输入数据),让这个值为(25,30.5,78)
total no of values in c1 = 20
total no of values in c2 = 30
ssbc1 = 20*(dist([2.3,1.5,3],[25,30.5,78]))^2
ssbc1 = 30*(dist([6.7,1,2],[25,30.5,78]))^2
total ssb = ssbc1+ssbc2是这样的吗?
发布于 2017-01-25 00:28:20
质心是每个维度中的平均值。
“在所有数据中”说不使用聚类。
https://stackoverflow.com/questions/41820540
复制相似问题