我在Python中有一个聚类算法,我正试图将其转换为PySpark (用于并行处理)。
我有一个包含区域的数据集,并在这些区域中存储。我想对单个区域中的所有存储执行我的聚类算法。
在进入ML之前,我有几个for循环。如何修改代码以删除PySpark中的for循环?我在PySpark中读过for循环通常不是一个好的实践,但我需要能够在许多子数据集上执行模型。有什么建议吗?
作为参考,我目前正在循环(通过Pandas DataFrames),如下所示:
for region in df_region:
for distinct stores in region:
[
我正在尝试使用python的sklearn将光学聚类模型与我的数据相匹配
from sklearn.cluster import OPTICS, cluster_optics_dbscan
from sklearn.preprocessing import StandardScaler
x = StandardScaler().fit_transform(data.loc[:, features])
op = OPTICS(max_eps=20, min_samples=10, xi=0.1)
op = op.fit(x)
在此模型中,得到了点的可达距离(op.reachability_)
我需要根据推文之间的相似性对它们进行聚类,我使用dec2vec对它们进行向量化,现在我需要一种方法来对这些向量进行聚类,而且我尝试了 this ,这对我来说不是一个很好的模型,因为我不知道集群的数量。我尝试在gensim库中使用函数相似,但是每次结果都不一样,是不正确的!那么,有什么方法可以将其聚在一起吗?