使Spark的结构化流中的JSON可以在python (pyspark)中作为无RDD的dataframe访问

在Spark中，可以使用pyspark来处理结构化流中的JSON数据，并将其作为无RDD的DataFrame进行访问。下面是完善且全面的答案：

Spark是一个快速、通用的大数据处理引擎，它提供了丰富的API和工具，用于处理和分析大规模数据集。Spark结构化流是Spark的一种流处理引擎，它支持以流的方式处理实时数据，并提供了类似于批处理的API。

JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，常用于Web应用程序之间的数据传输。在Spark中，可以使用pyspark来处理JSON数据，并将其转换为DataFrame进行访问。

要使Spark的结构化流中的JSON可以在python（pyspark）中作为无RDD的DataFrame访问，可以按照以下步骤进行操作：

导入必要的库和模块：

from pyspark.sql import SparkSession
from pyspark.sql.functions import from_json
from pyspark.sql.types import StructType, StructField, StringType

创建SparkSession对象：

spark = SparkSession.builder.appName("JSON Streaming").getOrCreate()

定义JSON数据的模式（Schema）：

schema = StructType([
    StructField("field1", StringType(), True),
    StructField("field2", StringType(), True),
    ...
])

在这里，你需要根据实际的JSON数据结构定义模式，包括字段名和字段类型。

读取结构化流中的JSON数据：

streamingDF = spark.readStream.format("json").schema(schema).load("path/to/json")

在这里，你需要将"path/to/json"替换为实际的JSON数据路径。

对DataFrame进行操作和查询：

resultDF = streamingDF.select("field1", "field2").filter("field1 = 'value'")

在这里，你可以根据需要选择和过滤字段，执行各种操作和查询。

启动流处理并输出结果：

query = resultDF.writeStream.outputMode("append").format("console").start()
query.awaitTermination()

在这里，你可以根据需要选择输出模式和输出目标，例如控制台（console）、文件（file）或数据库（database）。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云Spark服务：https://cloud.tencent.com/product/spark
腾讯云数据仓库（TencentDB）：https://cloud.tencent.com/product/dcdb
腾讯云对象存储（COS）：https://cloud.tencent.com/product/cos
腾讯云流计算Oceanus：https://cloud.tencent.com/product/oceanus

请注意，以上答案仅供参考，实际应用中可能需要根据具体情况进行调整和优化。

如何在结构化流式传输中将数据帧转换为rdds？

、

我使用pyspark流从kafka获取数据，结果是一个dataframe，当我将dataframe转换为rdd时，它出错了： Traceback (most recent call last): File "/home/docs/dp_model/dp_algo_platform/dp_algo_core/test/test.py", line 36, in <module> df = df.rdd.map(lambda x: x.value.split(" ")).toDF() File "/home/softs/spark-2.4.3-

浏览 56提问于2020-01-06得票数 3

7回答

如何将星火流数据转换为星火DataFrame

、、

到目前为止，Spark还没有为流数据创建DataFrame，但是当我进行异常检测时，使用DataFrame进行数据分析更方便、更快。我已经做了这一部分，但是当我尝试用流式数据进行实时异常检测时，问题就出现了。我尝试了几种方法，但仍然无法将DStream转换为DataFrame，也无法将DStream中的RDD转换为DataFrame。下面是我最新版本的代码的一部分： import sys import re from pyspark import SparkContext from pyspark.sql.context import SQLContext from pyspark.sql

浏览 2提问于2016-02-06得票数 10

回答已采纳

1回答

如何从SocketTCP获取数据以保存到Scala中的数据？

、、

--我尝试从Socket获取数据以附加到dataframe --我接收了数据并将其执行到Seq()中，但是当我使用forEach将它们附加到dataframe时，有一个问题--这是我的代码： object CustomReceiver { def main(args: Array[String]): Unit = { StreamingExamples.setStreamingLogLevels() // Create the context with a 1 second batch size val spark: SparkSession = SparkS

浏览 2提问于2021-06-21得票数 0

回答已采纳

1回答

如何在PySpark中向流数据帧中添加新列

、、、

我有来自卡夫卡主题的数据。在我的dataframe中，我有“平均”列，我希望通过对“平均”列执行一些计算来创建新列。目前我写的是- rdd_get_chills = df_avg_tmp.rdd.map(lambda line:get_wind_chills(line)) 但这是个错误- pyspark.sql.utils.AnalysisException: Queries with streaming sources must be executed with writeStream.start();

浏览 3提问于2022-09-20得票数 0

回答已采纳

5回答

来自自定义模块的函数不是在PySpark中工作，而是在交互模式下输入时工作。

、

我已经编写了一个模块，其中包含了在PySpark DataFrames上工作的函数。它们对DataFrame中的列进行转换，然后返回一个新的DataFrame。下面是代码的一个示例，缩短为只包含其中一个函数： from pyspark.sql import functions as F from pyspark.sql import types as t import pandas as pd import numpy as np metadta=pd.DataFrame(pd.read_csv("metadata.csv")) # this contains metad

浏览 6提问于2016-03-10得票数 7

回答已采纳

1回答

火花流

、

我编写了这段代码，用于吡火花上的虹膜分类，但是我得到了一个错误"'RDD‘对象没有属性'_jdf’“。我已经将RDD更改为dataframe，但它告诉我们，"RDD是不可移植的“。请帮我解决！非常感谢。这里是我的代码： from pyspark import SparkContext from pyspark.streaming import StreamingContext from pyspark.ml import PipelineModel, Pipeline from pyspark.sql import Row, DataFrame from py

浏览 0提问于2018-08-17得票数 2

1回答

将解析文本文件火花发送到DataFrame

、

目前，我可以通过RDD使用以下代码将文本文件解析为DataFrame： def row_parse_function(raw_string_input): # Do parse logic... return pyspark.sql.Row(...) raw_rdd = spark_context.textFile(full_source_path) # Convert RDD of strings to RDD of pyspark.sql.Row row_rdd = raw_rdd.map(row_parse_function).filter(bool) # Conver

浏览 6提问于2016-09-02得票数 0

回答已采纳

2回答

如何将RDD[CassandraRow]转换为DataFrame？

、、、、

目前，我正在将Cassandrarow RDD转换为dataframe： val ssc = new StreamingContext(sc, Seconds(15)) val dstream = new ConstantInputDStream(ssc, ssc.cassandraTable("db", "table").select("createdon")) import sqlContext.implicits._ dstream.foreachRDD{ rdd => val dataframeJobs = rdd.m

浏览 5提问于2017-05-30得票数 0

回答已采纳

1回答

是否有可能使用Spark与星火结构流的库？

、、、

我想对我从一个卡夫卡集群中获得的消息流执行tweet情绪分析，该集群反过来从Twitter v2中获取这些消息。当我尝试应用预先训练过的情感分析管道时，我会收到一条错误消息，上面写着：Exception: target must be either a spark DataFrame, a list of strings or a string，我想知道是否有办法解决这个问题。我已经检查了文档，在流数据上找不到任何东西。这是我使用的代码： import pyspark from pyspark.sql import SparkSession from pyspark.sql.functi

浏览 7提问于2022-03-23得票数 1

回答已采纳

2回答

如何使用PySpark转换结构化数据流？

、、

这似乎是显而易见的，但在回顾文档和示例时，我不确定是否可以找到一种方法来采用结构化的流并使用PySpark进行转换。例如： from pyspark.sql import SparkSession spark = ( SparkSession .builder .appName('StreamingWordCount') .getOrCreate() ) raw_records = ( spark .readStream .format('socket') .option('host&

浏览 11提问于2018-07-26得票数 6

回答已采纳

2回答

冲突的PySpark存储级别默认设置？

、

不明白为什么缓存的DFs (特别是第一个)在Spark中根据代码段显示不同的Storage Levels print(spark.version) 2.4.3 # id 3 => using default storage level for df (memory_and_disk) and unsure why storage level is not serialized since i am using pyspark df = spark.range(10) print(type(df)) df.cache().count() print(df.storageLeve

浏览 2提问于2019-07-07得票数 1

1回答

RDD.registerAsTable出错吗？

、、、、

我正在尝试使用pyspark运行sql查询。我使用以下代码： from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext, Row import os spark_config = SparkConf().setMaster("local").setAppName("Project_SQL") sc = SparkContext(conf = spark_config) sqlctx = SQLContext(sc) df = sqlctx.read.forma

浏览 2提问于2017-09-04得票数 1

回答已采纳

1回答

星星之火结构流: Scala中的模式推理

、、

我正在尝试从kafka topic.Found推断动态json模式--这段代码在博客中，它使用PYSPARK推断模式。 def read_kafka_topic(topic): df_json = (spark.read .format("kafka") .option("kafka.bootstrap.servers", kafka_broker) .option("subscribe", topic)

浏览 1提问于2020-08-04得票数 0

回答已采纳

2回答

RDD过滤器、Spark2.1和Python3.5中的映射操作出错

、、、、

我正在尝试运行中给出的Spark / Python的Logistic回归示例，并且已经成功地使用了Spark1.6和Python2.7。现在我必须将它移到Spark2.1和Python3.5( 3.6是不兼容的)，我正在使用Ubuntu16.04中的木星笔记本这段代码工作正常 # Evaluate the model on training data labelsAndPreds = modelInput.map(lambda p: (p.label, LRmodel.predict(p.features))) print(labelsAndPreds.count()) print(lab

浏览 2提问于2017-04-12得票数 1

回答已采纳

0回答

尝试在SparkSQL中显示表格时引发ValueError(item)

、、、

我使用PySpark和SparkSQL编写了以下代码，其中我尝试创建一个DataFrame，将其另存为表，然后显示该表： schema = StructType([StructField("int_field", IntegerType()), StructField("string_field", StringType())]) dfRow = sqlContext.createDataFrame(simulation, schema) dfRow.registerTempTable("myRow

浏览 1提问于2016-07-06得票数 0

2回答

如何在数据库中读取Azure CosmosDb集合并写入火花DataFrame

、、

我正在查询一个CosmosDb集合，并且能够打印结果。当我试图将结果存储到一个火花DataFrame时，它就失败了。以该网站为例：遵循上述链接中的准确步骤。另外，尝试下面的方法 df = spark.createDataFrame(dataset) 这会引发此错误： ValueError:某些类型在推断后无法确定 ValueError回溯(最近一次调用) 在() 25打印(数据集) 26 -> 27 df =spark.createDataFrame(数据集) 28 df.show() 29 /databricks/spark/python/pyspark/sql/sessio

浏览 2提问于2019-05-01得票数 1

1回答

将现有函数用作UDF以修改列时出错

、、、、

我有一个包含纯文本的字符串类型列的dataframe，我想使用pyspark.sql.functions.udf (或pyspark.sql.functions.UserDefinedFunction?)修改这个列。我在OSX10.11.4上使用Python2.7、Pyspark 1.6.1和Flask 0.10.1。当我使用lambda表达式时，它似乎工作得很好： @spark.route('/') def run(): df = ... # my dataframe myUDF = udf(lambda r: len(r), IntegerType()

浏览 10提问于2016-05-24得票数 0

回答已采纳

2回答

将csv文件加载到RDD和Dataframe中的区别

、、

我不知道这问题是否较早前提出。可能是一个可能的复制，但我无法找到坚持这样做的用例。如我们所知，我们可以直接将csv文件加载到dataframe，并可以将其加载到RDD中，然后稍后将该RDD转换为dataframe。 RDD = sc.textFile("pathlocation") 我们可以在此RDD上应用一些Map、filter和其他操作，并将其转换为数据格式。此外，我们还可以创建直接读取csv文件的dataframe。 Dataframe = spark.read.format("csv").schema(schema).option("head

浏览 0提问于2018-11-29得票数 0

回答已采纳

1回答

将Spark批处理源转换为结构化流接收器

、、

试图将org.apache.spark.sql.sources.CreatableRelationProvider转换为org.apache.spark.sql.execution.streaming.Sink，只需实现调用createRelation(...)的addBatch(...)，但createRelation(...)中有一个df.rdd，这会导致以下错误： org.apache.spark.sql.catalyst.analysis.UnsupportedOperationChecker$.org$apache$spark$sql$catalyst$analysis$Unsupp

浏览 0提问于2018-08-06得票数 1

2回答

火花放电中RDD到DF的不完全转换

、、

使用PySpark 1.6.3，我试图将RDD转换为Dataframe。这是在齐柏林飞艇笔记本上运行的测试代码。感兴趣的是rdd_ret。 >>> from pyspark.sql import Row >>> rdd_ret.count() 9301 >>> rddofrows = rdd_ret.map(lambda x: Row(**x)) >>> things = rddofrows.take(10000) >>> len(things) 9301 >>> [type(x) fo

浏览 0提问于2018-06-21得票数 2

1回答

如何计算或管理火花放电中的流数据

、、、、

我想从流数据中计算数据，然后发送到网页。例如，：我将在流数据中计算TotalSales列的和。，但它在summary = dataStream.select('TotalSales').groupby().sum().toPandas()上出错，这是我的代码。 import os from pyspark.sql import SparkSession from pyspark.sql.types import StructType from pyspark.sql.functions import * spark = SparkSession.builder.appName

浏览 0提问于2020-06-02得票数 0

回答已采纳

1回答

socket.timeout mongoDB火花放电

、、、、

我正在尝试使用mongoDB连接器在SPARK中执行python文件。python文件执行一个查询，从mongoDB获取一些数据，然后他们使用星火中的映射操作来处理这些数据。在执行映射操作时，执行将停止获取以下错误消息："socket.timeout: timed“。这就是我得到的输出：回溯(最近一次调用)：文件"/home/ana/computational_tools_for_big_data/project/review_analysis.py"，第27行，在bad_reviews = reviews_1.rdd.map(lambda r: r.text).

浏览 4提问于2016-11-27得票数 4

1回答

火花误差ReduceByKey

、、、、

我的reduceByKey()有问题。我不显示结果..。我有钥匙价值..。但不可能使用reduceByKey..。 data_test_bis = data_textfile.map(lambda x: (x.split(",")[8].encode("utf-8").replace('"','').replace("'",''), 1)).filter(lambda x: x[0].startswith('Ru'))#.reduceByKey(lambda x, y

浏览 1提问于2017-01-03得票数 0

回答已采纳

1回答

PicklingError:未能序列化对象:同时将数据插入到dynamoDB

、、

我试图在dynamoDB中插入200万项(WCU = 40,000)。但是当我使用星图时，它是抛出的错误。 %livy.pyspark import shutil from typing import Text, List from pyspark.sql import SparkSession, DataFrame import boto3 from urllib.parse import urlparse from boto3.dynamodb.conditions import Key dynamodb = boto3.resource('dynamodb', reg

浏览 6提问于2021-02-27得票数 0

1回答

如何将流数据从spark接收到Mongodb？

、、

我正在使用pyspark读取Kafka的流数据，然后我想将这些数据汇到mongodb。我已经包含了所有必需的包，但是它会引发以下错误 UnsupportedOperationException:数据源com.mongodb.spark.sql.DefaultSource不支持流写入。以下链接与我的问题无关下面是完整的错误堆栈跟踪回溯(最近一次调用)：.option("com.mongodb.spark.sql.DefaultSource"，“mongodb://localhost:27017/twitter.test”中的文件“/home/b3ds/kafka-sc

浏览 4提问于2018-06-04得票数 2

1回答

pyspark:重新分区后出现“值太多”错误

、、、、

我有一个DataFrame (转换为RDD)，并希望重新分区，以便每个键(第一列)都有自己的分区。这是我所做的： # Repartition to # key partitions and map each row to a partition given their key rank my_rdd = df.rdd.partitionBy(len(keys), lambda row: int(row[0])) 但是，当我试图将它映射回DataFrame或保存它时，我得到了这个错误： Caused by: org.apache.spark.api.python.PythonException:

浏览 0提问于2015-11-21得票数 5

2回答

星火结构流与ElasticSearch的集成

、、

我正在构建一个应用程序，它向我的集群发送一些数据。我将这些数据存储在一个特定的HDFS文件夹中，在该文件夹中正在运行一个Spark流应用程序。在这个streamApp中，我将做一些快速而廉价的datascience。之后，我必须将结果索引到ElasticSearch，以便为AngularApp提供数据服务。一切正常，但是..。我不能用ES索引我的结果。事实是..。我不能将我的结果DataFrame转换成RDD，因为它使用一些数据流作为输入这里是我的伪代码： val schema = StructType( StructField("id", StringType

浏览 5提问于2017-12-21得票数 2

2回答

mkString在PySpark中的等价性是什么？

、、、

我正在将一个dataframe转换成一个管道分隔的值，并将其写入shell (scala)中的一个文件中。但我在PySpark方面毫无头绪。会很感激你的帮助。尤其是我不知道如何用“\”来连接每个列这是scala版本 scala> val stgDF = spark.read.table("tbl") stgDF: org.apache.spark.sql.DataFrame = [name: string, num: int] scala> stgDF.map(line => line.mkString("|")).take(2) //H

浏览 3提问于2017-10-30得票数 4

回答已采纳

1回答

火花的快速数字散列函数(PySpark)

、、、

我正在尝试将哈希函数应用于PySpark DataFrame (在EMR集群上运行)的列中的短字符串，并获得一个数字值作为新列。例如，CRC3会做这项工作。我知道this question，但它是Scala的，我需要一个python版本。 (顺便说一句，我知道pyspark.sql.functions中的sha1和sha2，但我需要一个更快的散列函数，它只返回一个数字，比如校验和(但冲突尽可能少)。) 我做了以下工作： import zlib crc32 = udf(zlib.crc32) df2= df.withColumn("crc32", crc32(col("

浏览 15提问于2019-10-16得票数 3

1回答

spark流式传输到pyspark json文件中的数据帧

、、、

我需要火种的帮助。我正在从kafka流式传输json数据，我需要转换为pyspark中的Dataframe。为了流媒体，我使用了下面的代码。 from __future__ import print_function import sys import csv import json from pyspark import SparkContext from pyspark.streaming import StreamingContext from pyspark.streaming.kafka import KafkaUtils from pyspark.sql import SparkS

浏览 3提问于2017-07-30得票数 0

1回答

使用DataFrame和Pandas制作列时出错

、、、、

我使用的是spark1.5.1和Python3.5 anaconda distribution.My代码一直运行得很好，直到我在第7个单元 pd.DataFrame(CV_data.take(5), columns=CV_data.columns) 我在这个单元格上遇到错误 Py4JJavaError Traceback (most recent call last) <ipython-input-10-d3dfeab0b119> in <module>() ----> 1 pd.DataFrame(CV_data.take(5), columns=CV_dat

浏览 1提问于2016-06-29得票数 0

1回答

使用Pyspark从REST API获取数据到Spark Dataframe

、

我正在构建一个数据管道，它使用json格式的RESTApi数据并推送到Spark Dataframe。Spark版本: 2.4.4 但是得到的错误是 df = SQLContext.jsonRDD(rdd) AttributeError: type object 'SQLContext' has no attribute 'jsonRDD' 代码： from pyspark import SparkConf,SparkContext from pyspark.sql import SparkSession from urllib import urlopen

浏览 27提问于2020-06-24得票数 2

回答已采纳

1回答

执行Spark streaming从Kafka主题读取数据时出错

、、、

我是卡夫卡和斯帕克的新手。我已经通过Kafka生产者传递了消息，并试图在spark流中读取，但在main方法中遇到错误。代码如下所示。 spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.4.7 Streaming Example.py from pyspark import SparkContext from pyspark.sql import SparkSession from pyspark.streaming import StreamingContext from pyspar

浏览 15提问于2021-05-27得票数 0

2回答

如何生产熊猫数据行以激发数据

、、、、

嗨，我正在进行转换，我已经创建了some_function(iter)生成器到yield Row(id=index, api=row['api'], A=row['A'], B=row['B']，以生成从熊猫数据格式到rdd的转换行，并激发数据格式。我搞错了。(我必须使用熊猫来转换数据，因为有大量的遗留代码) 输入火花DataFrame respond_sdf.show() +-------------------------------------------------------------------+ |content

浏览 5提问于2020-12-22得票数 2

回答已采纳

2回答

pyspark rdd/dataframe未在cassandra中自动创建表

、、、、

在检查了所有找到的源之后，datastax-spark-cassandra连接器支持在cassandra中使用scala和java中的rdd自动创建表。特别是对于pyspark，有另一个包可以完成这项工作-- 。但是即使有了这个包也不能自动创建表格。对于dataframe，我根本找不到任何选项。我刚接触pyspark和cassandra，任何帮助都是非常感谢的。尝试仅使用anguenot包作为依赖项。Spark版本: 2.4.7 Cassandra :最新docker镜像 Pyspark shell >> pyspark --packages anguenot/pyspark-ca

浏览 8提问于2021-03-03得票数 2

2回答

需要创建一个Dataframe，其中通过循环遍历另一个Dataframe列的值来创建列。我如何在PySpark中做到这一点？

、、

我试图从原始的Dataframe "User_df“中获取每个列的列名和数据类型，到它们自己的列中，其中列的值分别是列名和数据类型。我有88列和9500行。当我尝试用一个列("ColumnDataTypes")创建一个Dataframe时，下面的代码是有效的，但当我试图为这两个列创建一个Dataframe时，代码就不起作用了： col_types = User_df.dtypes col_types2, col_types3 = [items[:] for items in zip(*col_types)] rdd_col_names = sc.parallel

浏览 36提问于2022-08-16得票数 0

回答已采纳

1回答

无法将RDD转换为DataFrame (RDD有数百万行)

、、、

我正在使用ApacheSpark1.6.2 我有一个.csv数据，它包含大约800万行，我想将它转换为DataFrame 但是，我必须首先将它转换为RDD来进行映射，以获得我想要的数据(列)。映射RDD很好，但是当涉及到将RDD转换为DataFrame时，火花抛出一个错误。 Traceback (most recent call last): File "C:/Users/Dzaky/Project/TJ-source/source/201512/final1.py", line 38, in <module> result_iso = input_i

浏览 3提问于2017-01-14得票数 4

回答已采纳

1回答

从RDD创建DataFrame时出错

、、

在下面的代码中，我试图从管道the创建一个DataFrame： print type(simulation) sqlContext.createDataFrame(simulation) print语句打印如下： <class 'pyspark.rdd.PipelinedRDD'> 但是，在下一行中，我得到了以下错误： org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 3.0 failed 1 times, most recent failur

浏览 2提问于2016-07-06得票数 1

回答已采纳

2回答

ValueError: object (3)的长度与字段长度不匹配

、、

我手动创建PySpark DataFrame，如下所示： acdata = sc.parallelize([ [('timestamp', 1506340019), ('pk', 111), ('product_pk', 123), ('country_id', 'FR'), ('channel', 'web')] ]) # Convert to tuple acdata_converted = acdata.map(lambda x: (x[0][1], x[1][1], x[2

浏览 1提问于2017-11-08得票数 3

回答已采纳

1回答

尝试对Spark数据帧进行计数时出现Keyerror

、

我有一个包含以下示例条目的spark数据帧。当我尝试计算数据帧中的行数时，我得到了一个Keyerror。有人能告诉我为什么会出现这个错误吗？下面是展开的data bricks堆栈跟踪，它显示存在Keyerror。 --------------------------------------------------------------------------- Py4JJavaError Traceback (most recent call last) <ipython-input-42-c5195177

浏览 0提问于2016-06-04得票数 1

1回答

如何解决DataFrame函数在PySpark - Py4JJavaError中的问题

、、

我试图在PySpark和笔记本中创建和分析数据。下面是我在朱庇特笔记本上的代码。 from pyspark.sql import SparkSession spark = SparkSession.builder \ .master("local") \ .appName("Neural Network Model") \ .config("spark.executor.memory", "6gb") \ .getOrCreate() 我开始了火花疗法。 df1 = spark.createDataFr

浏览 0提问于2019-01-25得票数 1

1回答

PySpark DataFrame写入空(零字节)文件

、、

我正在使用Spark3.1.1版本的PySpark DataFrame API进行本地设置。在读取数据、执行一些转换等之后，我将DataFrame保存到磁盘。输出目录与part-0000*文件一起创建，输出目录中也有_SUCCESS文件。但是，我的part-0000*总是空的，即零字节。我试着用parquet和csv格式编写它，结果是一样的。在编写之前，我调用了df.show()以确保DataFrame中有数据。 ### code.py ### from pyspark.sql import SparkSession from pyspark.sql import functions as

浏览 8提问于2022-05-11得票数 1

1回答

PySpark:关于调用df.foreach方法的PicklingError

、、、

我有一个代码(kafka_producer.py)，从csv >>中读取，创建Pandas dataframe >>，将熊猫的数据转换为星星之火>>调用>>方法，将消息发送给kafka。df.foreachPartition(self.send_to_kafka)正在抛出PicklingError: Could not serialize object: TypeError: can't pickle _thread.RLock objects。代码如下： def get_kafka_producer(topic): kafka

浏览 37提问于2022-05-27得票数 0

回答已采纳

2回答

AttributeError：“”DataFrame“”对象没有属性“”map“”

、、、、

我想使用以下代码将spark数据帧转换为要添加的内容： from pyspark.mllib.clustering import KMeans spark_df = sqlContext.createDataFrame(pandas_df) rdd = spark_df.map(lambda data: Vectors.dense([float(c) for c in data])) model = KMeans.train(rdd, 2, maxIterations=10, runs=30, initializationMode="random") 详细的错误消息为： ---

浏览 1提问于2016-09-16得票数 44

回答已采纳

2回答

使用StructType为Pyspark.sql设置架构时的语法

、

我是spark的新手，一直在玩Pyspark.sql。根据pyspark.sql documentation ，可以像这样设置Spark数据框架和模式： spark= SparkSession.builder.getOrCreate() from pyspark.sql.types import StringType, IntegerType, StructType, StructField rdd = sc.textFile('./some csv_to_play_around.csv' schema = StructType([StructField('Nam

浏览 0提问于2015-05-13得票数 29

回答已采纳

1回答

我的本地火星雨少了什么？

、

我刚刚开始学习pyspark，这里似乎是一个展示器:我试图将一个本地文本文件加载到spark中： base_df = sqlContext.read.text("/root/Downloads/SogouQ1.txt") 16/12/29 11:55:20 text.TextRelation:在驱动程序上列出text.TextRelation base_df.show(10) 16/12/29 11:55:36 INFO storage.MemoryStore:块broadcast_2存储在内存中(估计大小为61.8 KB，空闲78.0 KB) 16/12/29 11

浏览 5提问于2016-12-29得票数 1

1回答

PySpark3在将yyyyMMddhhmmss解析为TimestampType()时没有属性'tzinfo‘错误

、

我有这个csv文件(test.csv)，它包含以下内容： COLUMN_STRING;COLUMN_INT;COLUMN_TIMESTAMP String_Value_1;123456;20131226224757 String_Value_2;234567;20141227234858 String_Value_3;345678;20151228214555 我试图使用以下代码将第3列时间戳yyyyMMddhhmmss导入到TimestampType()中： from pyspark.sql.types import * data = sc.textFile('test.csv

浏览 1提问于2017-02-21得票数 3

1回答

(PySpark) StringIndexer错误: py4j.protocol.Py4JJavaError:调用o46.fit时出错

、、、、

我在PySpark有一个dataFrame。我想对我的label列使用StringIndexer，所以我定义了一个函数： def indexer(column, dataframe): from pyspark.ml.feature import StringIndexer # Indexing the column stringIndexer = StringIndexer(inputCol=column, outputCol='categoryIndex') model = stringIndexer.fit(dataframe)

浏览 40提问于2020-04-22得票数 0

1回答

齐柏林飞艇/星火: org.apache.spark.SparkException:无法运行程序"/usr/bin/"：error=13，无权限

、、

我试图在Debian 9上使用Zeppelin 0.7.2和Spark2.1.1进行基本的回归。这两个齐柏林飞艇都安装在/usr/local/这意味着/usr/local/ zeppelin /和/usr/local/火星中。齐柏林飞艇也知道正确的SPARK_HOME。首先，我加载数据： %spark.pyspark from sqlalchemy import create_engine #sql query import pandas as pd #sql query from pyspark import SparkContext #Spark DataFrame from pyspar

浏览 2提问于2017-08-16得票数 1

回答已采纳

1回答