我想在MongoDB提供的数据中运行k-方法。我有一个针对平面文件的工作示例:data = sc.textFile("/home/mhoeller/kmeans_data.txt")
parsedData = data.map(lambda line: array([int(x) for x in line.split(' ')]))
我正在使用以下代码创建一个聚类模型,然后将每个记录分类到某个聚类:from pyspark.mllib.linalgimport Vectors
rdd = spark_df.rdd.map(lambda data:Vectors.dense([float(c) for c in data]))
mo
我尝试了几种方法,但仍然无法将DStream转换为DataFrame,也无法将DStream中的RDD转换为DataFrame。下面是我最新版本的代码的一部分:import re
from pyspark.sql.context importimport KMeans, KMeansModel, StreamingKMeans
from <em
Using the starter code provided, I read the BQ table, convert RDD into a Dataframe and pass to KMeanspysparkfrom pyspark.ml.clustering import KMeans
# cache the RD