我从R中的文档-术语矩阵导出术语-术语共现矩阵K。我感兴趣的是对逐个关键字的矩阵K进行K均值聚类分析。K的维度是8962术语×8962术语。
我将K传递给kmeans函数,如下所示:
for(i in 1:25){
#Run kmeans for each level of i, allowing up to 100 iterations for convergence
kmeans<- kmeans(x=K, centers=i, iter.max=100)
#Combine cluster number and cost together, write to
我尝试对文本数据进行聚类,数据清晰,标记化等。我如何在Kmeans或其他聚类模型中输入相似度矩阵?
from gensim import corpora
from gensim import models
from gensim.models import Word2Vec, WordEmbeddingSimilarityIndex
from gensim.similarities import SoftCosineSimilarity, SparseTermSimilarityMatrix
documents = list(data['clear_response'])
te
我有一个由0,1,2组成的161X911数据矩阵,然后在整个矩阵中有一些NaN。我尝试对数据运行内置函数kmeans,每当我有一个大于5的K(聚类数)值时,它就会返回这个值
Warning: Ignoring rows of X with missing data.
> In kmeans at 128
??? Error using ==> kmeans at 284
X must have more rows than the number of clusters.
有什么办法可以解决这个问题吗?我猜只有5行没有任何NaN。