如何使用PySpark从SPARK中的RDD中获取特定值

、、、

我正在尝试从cassandra获取已安装在AWS ec2中的数据。当我通过pyspark运行以下命令时，我能够从AWS读取，但是当我通过spark-submit提交相同的python文件时，我从本地获取rdd。你能给我推荐一下我缺少配置的地方吗？from pyspark import SparkConf, SparkContext from pyspark

浏览 0提问于2017-04-14得票数 2

1回答

如何批量收集RDD中的元素

、、

我有一个pyspark RDD，它有大约200万个元素。我不能一次收集它们，因为它会导致OutOfMemoryError异常。如何批量采集？这是一个潜在的解决方案，但我怀疑还有更好的方法:收集一个批处理(使用take、https://spark.apache.org/docs/3.1.2/api/python/reference/api/pyspark.

浏览 29提问于2021-10-12得票数 0

回答已采纳

1回答

火花放电rdd分裂问题

、、

我试图从rdd中筛选值为"01-10-2019“的 print(" ### count of rdd_201901001:",rdd_2

浏览 5提问于2020-02-08得票数 1

回答已采纳

1回答

、、

以下是我的RDD，有5个字段在这里我只需要获取第一，第三和第五个字段，如何在PySpark中做。我尝试了reduceByKey的几种方法，但都不能实现Raju,40,True Mike,50,False

浏览 3提问于2016-09-08得票数 0

1回答

socket.timeout mongoDB火花放电

、、、、

我正在尝试使用mongoDB连接器在SPARK中执行python文件。python文件执行一个查询，从mongoDB获取一些数据，然后他们使用星火中的映射操作来处理这些数据。，在bad_reviews = reviews_1.rdd.map(lambda r: r.text).collect()文件"/usr/local/spark/python/lib/p

浏览 4提问于2016-11-27得票数 4

2回答

如何使用Spark* Dstream进行简单的随机采样？(使用spark 1.6.1的pyspark)*

、

我想从数据流中的rdds中提取样本。因为数据流没有sample()转换，它是一个rdds序列，所以我这样做是为了从数据流中提取样本，并对其应用字数计数：from pysparkimport SparkConf conf=SparkConf() conf.set("spark.executor.memorySp

浏览 8提问于2016-08-19得票数 0

回答已采纳

2回答

将数据保存到HDFS的格式是什么？

、、、

在dataframe或rdd中是否有其他格式可用于在Hadoop中保存数据？

浏览 2提问于2017-12-21得票数 1

1回答

对象在尝试收集RDD时不可迭代，pyspark

、、、、

我是Spark的新手。在将一个顶级外部函数传递到RDD_old.reduceByKey之后，当我试图从RDD_new收集结果时，出现了这个错误。in startTesting File "/usr/spark/python/lib/pyspark.zip/pyspark/rdd.py&#x

浏览 0提问于2017-03-08得票数 0

1回答

根据文档，可以从(scala) spark streaming应用程序进行。我想在pyspark上实现同样的功能。或者至少将kafka分区、偏移量存储到外部数据存储(RDBMS等)。然而，用于kafka集成的pyspark api只提供RDD(offset, value)]而不是RDD[ConsumerRecord] (与scala中一样)。有没有办法从python RDD中获取

浏览 0提问于2018-06-19得票数 2

2回答

Geoip2的python库在pySpark的映射函数中不工作。

、、、

我正在使用Geoip2的python库和pySpark来获取一些I的地理地址。但当我试图在rdd.map中这样做时：print rdd.map(lambda x: ip2city(x)) Traceback (most recent call last): File "/home/wor

浏览 6提问于2015-11-16得票数 8

回答已采纳

1回答

从pyspark* dataframe中的结构类型获取字段值*

、

我必须从csv文件(列名和数据类型)中获取.I到目前为止已经达到的模式-Person = Row('name', 'age')我想提取name和age以及StringType和LongType的值这

浏览 0提问于2019-07-02得票数 3

1回答

如何从pyspark中检索RDD依赖关系？

、、、

如何从PySpark中检索RDD的依赖关系？public final scala.collection.Seq<Dependency<?>> dependencies()我见过toDebugString方法。但这真的只适用于交互式spark</em

浏览 2提问于2017-12-25得票数 0

2回答

mkString在PySpark中的等价性是什么？

、、、

我正在将一个dataframe转换成一个管道分隔的值，并将其写入shell (scala)中的一个文件中。但我在PySpark方面毫无头绪。会很感激你的帮助。尤其是我不知道如何用“\”来连接每个列scala> val stgDF = spark.read.table("tbl") stgDF: org.apache.spark.sql.DataFrame= [name:

浏览 3提问于2017-10-30得票数 4

回答已采纳

1回答

如何将<class‘class’_. How .

、、、、

我对Spark完全陌生，目前我正在尝试使用Python编写一段简单的代码，对一组数据执行KMeans操作。/lib/pyspark.zip/pyspark/worker.py"，第106行中，在process serializer.dump_stream(split_index迭代器)中，在文件"/usr/hdp/2.5.0.0-1245/spark&#

浏览 2提问于2017-03-02得票数 5

回答已采纳

1回答

在pyspark中使用foreachRDD和foreach遍历rdd

、、

Spark 1.6.1，pyspark的问题{"event":4,"Userid":12345,"time":123456789,"device_model":"iPhonerdd：正如您从输入格式中看到的，我必须获取原始数据集并迭代所有键，<e

浏览 2提问于2016-05-28得票数 1

4回答

如何在结构化流式传输中将数据帧转换为rdds？

、

我使用pyspark流从kafka获取数据，结果是一个dataframe，当我将dataframe转换为rdd时，它出错了： Traceback (most recent call last):File "/home/softs/spark-2.4.3-bin-hadoop2.6/python/lib/py

浏览 56提问于2020-01-06得票数 3

1回答

无法使用pySpark从Presto SQL (Trino)获取数据

、、、、

我有一个在AWS Glue上运行的pyspark作业。当我在本地机器上运行代码时，它运行得很好。但是，当我尝试从AWS Glue运行相同的代码时，我无法获取数据。下面是我的代码和错误消息。从输出中，您会注意到我能够获得模式信息。只要我尝试获取数据，就会发生错误。更新:发生此问题是因为工作节点无法访问主节点中存在的密钥库。是否有人可以帮助如何将文件复制到子节点，或者如何使文件可供子

浏览 90提问于2020-12-31得票数 1

回答已采纳

1回答

使用csv文件中的pyspark数据绘制RDD数据

、、、、

我刚刚开始在非常大的csv文件上使用pyspark。我使用的是Spark版本2.1.0。我希望从一个.csv文件中读取数据，并将其加载到中，然后在过滤特定的行之后，使用matplotlib绘制2列(纬度和经度)，将其可视化。这就是我到目前为止所做的：from pyspark.sql import SparkSession from pyspa

浏览 0提问于2017-06-28得票数 1

1回答

如何将RDD从scala传递给python？

、、

我试图将Spark从Scala传递给Python，这样我就可以从PySpark调用函数了。我的scala代码返回rdd.toJavaRDD()，然后我在python中通过以下方法阅读：from pyspark.rdd import RDD python_rdd = RDD(scala_r

浏览 1提问于2022-01-29得票数 1

1回答

为什么将Dataframe转储到Avro文件不能转换Python中的字节数组？

、、、

我面临以下困难:我正在使用Spark1.4.1、Python2.7.8和Spark _2.10-1.0.0 conf = SparkConf().setAppN

浏览 3提问于2015-09-07得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从本地连接到客户端cassandra

如何批量收集RDD中的元素

火花放电rdd分裂问题