Pyspark Dataframe到适用于KMEANS的阵列RDD_Pyspark rdd到dataframe的转换_展开PySpark DataFrame的阵列列 - 腾讯云开发者社区

、、、

我正在尝试在Spark 2.2中运行Kmeans集群算法。我找不到正确的输入格式。它会给出TypeError: Cannot convert type <class 'pyspark.sql.types.Row'> into Vector错误。我进一步检查了我的inputrdd是一个Row Rdd。我们把它转换成数组RDD? CAn？说，这表明我们可以将并行数组rdd数据传递到KMeans模型中。执行<

浏览 12提问于2018-02-24得票数 1

3回答

pyspark:使用spark-ml和spark数据帧创建k-means聚类模型

、、、、

import Vectorsmodela = kmeans.fit= KMeans(k=2, seed=1.0) /home/edamame/spark/spark-2.0.0-bin-hadoop2.

浏览 2提问于2016-09-17得票数 0

2回答

AttributeError：“”DataFrame“”对象没有属性“”map“”

、、、、

我想使用以下代码将spark数据帧转换为要添加的内容：spark_df = sqlContext.createDataFrame(pandas_df)model = KMeans.train(rdd, 2, maxIterations=10, runs=

浏览 1提问于2016-09-16得票数 44

回答已采纳

1回答

拟星体: kmeans的分类变量准备

我知道Kmeans不是一个适用于分类数据的很好的选择，但是我们在spark 1.4中没有太多的选择来对分类数据进行聚类。不管上面的问题。我在下面的代码中有错误。我从蜂巢中读取我的表，在管道中使用一个编码器，然后将代码发送到Kmeans。运行这段代码时，我会收到一个错误。错误是否是以数据类型输入给Kmeans的？doen是期望数字支付阵列数据吗？所有的评论都被删除了，谢谢你的帮助！我得到的<

浏览 1提问于2016-02-02得票数 0

1回答

如何映射星火中的MongoDB数据？

、、

我想在MongoDB提供的数据中运行k-方法。我有一个针对平面文件的工作示例：data = sc.textFile("/home/mhoeller/kmeans_data.txt") parsedData = data.map(lambda line: array([int(x) for x in line.split(' ')]))

浏览 1提问于2017-08-02得票数 0

回答已采纳

1回答

PySpark:将PythonRDD附加/合并到PySpark数据帧

、、、、

我正在使用以下代码创建一个聚类模型，然后将每个记录分类到某个聚类：from pyspark.mllib.linalgimport Vectors rdd = spark_df.rdd.map(lambda data:Vectors.dense([float(c) for c in data])) mo

浏览 6提问于2016-09-17得票数 2

回答已采纳

1回答

将RDD转换为kmeans的有效输入

、、、、

我使用包含csv文件的目录的spark mllib算法计算TF和国防军，代码如下：from os import system parser我还测试了KMeans mllib算法：from pysparkimport SparkContext from pyspark.mllib.clusterin

浏览 1提问于2017-10-19得票数 0

7回答

如何将星火流数据转换为星火DataFrame

、、

我尝试了几种方法，但仍然无法将DStream转换为DataFrame，也无法将DStream中的RDD转换为DataFrame。下面是我最新版本的代码的一部分：import re from pyspark.sql.context importimport KMeans, KMeansModel, StreamingKMeans from <em

浏览 2提问于2016-02-06得票数 10

回答已采纳

1回答

如何将<class‘class’_. How .

、、、、

我对Spark完全陌生，目前我正在尝试使用Python编写一段简单的代码，对一组数据执行KMeans操作。import KMeans, KMeansModelfrom pyspark.mllib.linalg import= model.clusterCenters()我将这些输入到pyspark中，当它运行model = kmeans</

浏览 2提问于2017-03-02得票数 5

回答已采纳

1回答

如何将params传递给ML Pipeline.fit方法？

、、、、

Using the starter code provided, I read the BQ table, convert RDD into a Dataframe and pass to KMeanspysparkfrom pyspark.ml.clustering import KMeans # cache the RD

浏览 2提问于2016-02-07得票数 4

回答已采纳

1回答

如何在火花中规范化和生成相似矩阵？

、、、、

我见过很多关于相似矩阵的堆叠溢出问题，但它们处理的是RDD或其他情况，我无法找到对我的问题的直接答案，于是我决定发布一个新的问题。sc = spark.sparkContextpdf = pd.DataFrame({'user_id'我想对这些数据运行KMeans。from pyspark.ml.fe

浏览 1提问于2021-02-24得票数 6

回答已采纳

3回答

我可以将pandas数据帧转换为spark rdd吗？

Pbm： a)读取一个本地文件到Panda dataframe中，比如PD_DF。b)操纵/海量PD_DF并添加列到dataframe中。c)需要使用spark将PD_DF写到HDFS。

浏览 0提问于2015-04-15得票数 4

1回答

如何正确标记原始观测与预测星系团使用kmeans在火花？

、、

我想了解k均值方法在PySpark中是如何工作的。= sc.parallelize(entry) In [122]: clusters = KMeans.train(rdd_entry, k=5, maxIterations=10, initializationMode似乎返回每个观察所属的集群，尊重原始rdd的顺序。虽然在这个例子中很明显，，在我将处理800万次观测的情况下，我如何确定？此外，我还想知道如何加入rdd_entry和

浏览 3提问于2017-11-10得票数 1

回答已采纳

4回答

从列表的RDD创建星火DataFrame

、、

我有一个rdd (我们可以称之为myrdd)，其中rdd中的每个记录都具有如下形式：我想把它转换成一个DataFrame --最简单的方法是什么？

浏览 0提问于2015-04-07得票数 15

回答已采纳

2回答

KMeans聚类在PySpark中的应用

、、、、

我试图只在两个列上运行kmeans : lat和long (纬度和经度)，使用它们作为简单值)。我想提取基于这2列的7个集群，然后我想将集群赋值附加到我的原始数据。我试过：from math import sqrtdata = mydataframe.sel

浏览 6提问于2017-12-01得票数 17

回答已采纳

1回答

火花放电数据的预处理

、、

在查看了星星之火/示例目录中的kmeans示例之后，我尝试在一组纬度和经度数据上进行K-意思聚类。我已经将.csv数据导入到spark (~1M行)中，并试图将数据读取作为我的k-means模型的输入，但是我一直得到一个错误。这是我的代码：from pyspark.ml.linalg import Vectors df = spark.re

浏览 3提问于2017-07-05得票数 1

回答已采纳

2回答

如何将类型行转换为向量，以便馈送到KMeans

、、、、

当我尝试将df2提供给kmeans时，我得到了以下错误我得到的错误是：df2是按如下方式创建的数据帧： df = sqlContext.read.jso

浏览 3提问于2016-03-22得票数 8

回答已采纳

2回答

将数据保存到HDFS的格式是什么？

、、、

创建DataFrame后，我可以将其保存为avro、csv或拼板格式。在dataframe或rdd中是否有其他格式可用于在Hadoop中保存数据？

浏览 2提问于2017-12-21得票数 1

2回答

无法导入DSX环境中的spark

、、、、

我正在尝试从KMeans导入spark.mllib和Vectors类。该平台是IBM (DSX)，带有python3.5和。我也尝试过没有运气的pip install spark。但这是在VM中，我看不到外部访问CLI的能力。我确实找到了，但我不认为我有错配的问题--导入DSX的问题已经解决了，但我不能很好地解释我的情况。我认为是我真正需要解决的问题，但它是针对sparkR而不是python的。

浏览 0提问于2018-04-01得票数 0

回答已采纳

8回答

ImportError:火花工作者上没有名为numpy的模块

、、、

bin/pyspark --master yarn-client --num-executors 60，shell上的导入numpy很好，但是在kmeans中失败了。不知怎么的，执行者们没有安装过，这是我的感觉。我在任何地方都找不到好的解决办法，让工人们知道“无生气”的事。我试着设置PYSPARK_PYTHON，但这也不起作用。= sc.parallelize(features, 5000) from pyspark.mll

浏览 7提问于2016-02-05得票数 19

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云