我正在尝试使用k-means对数据集进行聚类。当我只用一次迭代运行我的算法时,它应该返回随机聚类,但当我尝试多次迭代时,它只返回0。我使用的矩阵是一个50k x 140的二进制矩阵。stackoverflow.com/questions/23020659/fastest-way-to-calculate-the-centroid-of-a-set-of-coordinate-tuples-in-python-wiretur
我一直在探索多维数据的聚类算法(K-均值、K-Medoid、Ward聚集、高斯混合建模、BIRCH、DBSCAN、光学、公共最近邻聚类)。我相信,我的数据中的集群发生在特性的不同子集中,而不是发生在所有特性之间,而且我相信这会影响聚类算法的性能。为了说明,下面是模拟数据集的Python代码:
## Simulate a data