pyspark kmeans - 腾讯云开发者社区

、、、、

我用Pypsark创建了一个kmeans算法。现在，我还想提取集群中心。我该怎么把它包括在管道里呢？#### model K-Means ### pipeline = Pipeline(stages=[

浏览 0提问于2020-02-26得票数 2

回答已采纳

1回答

如何将<class‘class’_. How .

、、、、

我对Spark完全陌生，目前我正在尝试使用Python编写一段简单的代码，对一组数据执行KMeans操作。import KMeans, KMeansModelfrom pyspark.mllib.linalg import(vdf, k=2, maxIterations=10, runs=10, initializationMode="k-means||") model = kmeans.fit

浏览 2提问于2017-03-02得票数 5

回答已采纳

1回答

AttributeError：“”KMeans“”对象没有属性“”setK“”

、、、

示例： from sklearn.cluster import KMeans kmeans = KMeans()\ .setSeed(1) \ .setFeaturesCol((data) 尽管已经实现了拟合，但它还是导致了Kmeans属性中的错误。-22-296a7d54514a> in &

浏览 204提问于2021-02-04得票数 1

1回答

如何正确标记原始观测与预测星系团使用kmeans在火花？

、、

我想了解k均值方法在PySpark中是如何工作的。[5,5,5],[5,5,5],[1,1,1],[5,5,5]] In [122]: clusters = KMeans.train

浏览 3提问于2017-11-10得票数 1

回答已采纳

1回答

不支持数据类型ArrayType(FloatType，false) -collaborative筛选

、、、、

from pyspark.sql.types import IntegerTypefrom pyspark.ml.featureVectorAssembler(inputCols=["features"], outputCol="features") kmeans= KMe

浏览 21提问于2017-02-09得票数 0

3回答

如何在pyspark* MLlib中读取csv？*

、、

我有一个csv文件，我想用它作为KMeans算法在pyspark中的输入。我使用的是MLlib文档中的代码。from pyspark.ml.clustering import KMeansdataset = spark.read.format("libsvm").load("P.txt") # Trains a k-means

浏览 76提问于2019-12-21得票数 0

回答已采纳

2回答

Pyspark:在数据帧的不同组上应用kmeans

、、、

使用Pyspark，我希望将kmeans单独应用于数据框架的组，而不是一次性应用于整个数据框架。目前，我使用了一个For循环，它在每个组上迭代，应用kmeans并将结果附加到另一个表。df = assembler.transform(temp_df) while (k < 5 & mtrc < width): kmeans= KMeans(k=k,seed=5,maxIter=20,initSteps=5)

浏览 0提问于2017-11-10得票数 12

2回答

将pyspark算法的结果添加到数据中？

、、

#Trains a k-means modelmodel = KMeans.train(dataset, k) print ("Final centers: " + str(model.clusterCenters

浏览 6提问于2017-08-15得票数 0

1回答

IllegalArgumentException: kmeans.fit上的“需求失败”

、、、、

这是我的密码：from pyspark.ml.feature import VectorAssembler vecAssembler = VectorAssemblerclust", "v2_clust", "v

浏览 4提问于2017-05-03得票数 1

回答已采纳

4回答

NameError:未定义名称“spark”

、、、、

我正在从官方文档网站复制pyspark.ml示例：df = spark.createDataFrame(data, ["features"])model = kmeans.fit(df) 但是，

浏览 4提问于2016-09-16得票数 32

回答已采纳

3回答

PySpark如何找到适当数量的集群

、、、、

在PySpark工作时，我也想做同样的事情。我知道，由于星火的分布式特性，PySpark的功能有限，但是，有办法得到这个数字吗？我使用下面的代码来绘制肘形图，使用弯头方法从sklearn.cluster导入KMeans中找到最优的集群数for i in range(1, 11):

浏览 4提问于2019-05-30得票数 4

回答已采纳

2回答

如何从Spark中的“Set Set Sum of Squared Error”值计算K-means聚类模型的精度？

、、

我正在与Spark合作，想知道如何获得创建的K-means聚类模型的精确值。同时，检查Spark - KMeansModel API，我发现了"ComputeCost“，它返回”Set Sum of Squared Error“值。或者，在Spark中有其他可用的选项来获得它吗？关于这一点，请给我一些建议。

浏览 0提问于2018-05-17得票数 1

1回答

在Spark ML / pyspark中以编程方式创建特征矢量

、、、

我想知道如果我有多个数字列的特性，是否有一种简洁的方法在pyspark中的DataFrame上运行ML (例如KMeans)。, a2=3.5, a3=1.4, a4=0.2, id=u'id_1', label=u'Iris-setosa', binomial_label=1)from pyspark.mllib.linalg import Vectors from pyspark.

浏览 1提问于2015-09-16得票数 24

回答已采纳

0回答

Spark使用StandardScaler获取实际的集群中心

、、、

我使用StandardScaler安装了一个具有缩放功能的KMeans。问题是集群中心也是可伸缩的。有没有可能以编程方式获得原始的中心点？import pandas as pdfrom pyspark.ml.feature import VectorAssemblerfrom pyspark.ml.clustering import KMean

浏览 0提问于2017-12-08得票数 1

回答已采纳

1回答

在python / pyspark中获取k-means质心和异常值

、、、、

有谁知道Python / PySpark中的简单算法来检测K-means聚类中的离群值并创建这些离群值的列表或数据帧吗？我不知道如何获得质心。我使用了以下代码： n_clusters = 10 model = kmeans.fit(Data.select("

浏览 57提问于2021-01-08得票数 1

回答已采纳

1回答

在ml算法中使用dataframe

、、、

我了解到，为了使用ml.clustering Kmeans算法(实际上任何ml的algos?)使用dataframe，我需要将我的数据数据以特定的形状：(id，vector[])或类似的东西。这是我的df：from pyspark import SparkContext sc = SparkContext(conf=conf)spark = Sp

浏览 2提问于2016-11-28得票数 3

3回答

pyspark:使用spark-ml和spark数据帧创建k-means聚类模型

、、、、

pandas_df = pd.read_pickle('df_features.pickle')from pyspark.ml.clustering import KMeans modela = kmeans.fit= KM

浏览 2提问于2016-09-17得票数 0

2回答

AttributeError：“”DataFrame“”对象没有属性“”map“”

、、、、

我想使用以下代码将spark数据帧转换为要添加的内容：spark_df = sqlContext.createDataFrame(pandas_df)model = KMeans.trainimport KMeans 2 spark_df = sqlContext.create

浏览 1提问于2016-09-16得票数 44

回答已采纳

2回答

在mllib kmeans中获取集群标签

、、、、

当我在pyspark中使用Spark的mllib时，如何获得集群标签？在滑雪板上，这可以很容易地通过temp=kmeans.fit(data)在mllib中，我将kmeans运行为： temp = KMeans.train(data, k, maxIterations=10, runs=10, initializationMode这个类没有

浏览 3提问于2016-03-31得票数 4

回答已采纳

1回答

Spark在EC2实例上运行K均值时出现Java堆空间错误

、、

示例数据和代码在我的上from pyspark.mllib.featureimport HashingTFfrom numpy import arrayimport json from

浏览 0提问于2015-06-17得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

PySpark: AttributeError：“PipelineModel”对象没有属性“clusterCenters”

如何将<class‘class’_. How .

AttributeError：“”KMeans“”对象没有属性“”setK“”

如何正确标记原始观测与预测星系团使用kmeans在火花？

不支持数据类型ArrayType(FloatType，false) -collaborative筛选

如何在pyspark* MLlib中读取csv？*

Pyspark:在数据帧的不同组上应用kmeans

将pyspark算法的结果添加到数据中？

IllegalArgumentException: kmeans.fit上的“需求失败”

NameError:未定义名称“spark”

PySpark如何找到适当数量的集群

如何从Spark中的“Set Set Sum of Squared Error”值计算K-means聚类模型的精度？

在Spark ML / pyspark中以编程方式创建特征矢量

Spark使用StandardScaler获取实际的集群中心

在python / pyspark中获取k-means质心和异常值

在ml算法中使用dataframe

pyspark:使用spark-ml和spark数据帧创建k-means聚类模型

AttributeError：“”DataFrame“”对象没有属性“”map“”

在mllib kmeans中获取集群标签

Spark在EC2实例上运行K均值时出现Java堆空间错误

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐