Spark未使用二进制文件并行运行RDD Pyspark

、、、

嗨，我在Notebook中有这段代码，并尝试编写python spark代码： spark.sql("SELECT* from mytable")result = spark.sql("select * from mytablewhere temeperature is not n

浏览 0提问于2017-06-04得票数 5

回答已采纳

1回答

PySpark:读取gzipped文件时为空RDD

、、

我有一个脚本来分析BSON转储，但是它只适用于未压缩的文件。在读取gz bson文件时，我得到了一个空的RDD。pyspark_location = 'lib/pymongo_spark.py'INPUT_FILE = 'big_bson.gz'= HDFS_HOME + INPUT_FILE import pymong

浏览 2提问于2016-04-27得票数 0

2回答

pyspark和spark之间的记忆差异？

、、

我一直在尝试使用一个PySpark作业来创建包含一堆二进制文件的RDD，然后我使用flatMap操作将二进制数据处理成一堆行。这导致了一堆内存不足的错误，在尝试了一段时间的内存设置后，我决定让最简单的事情尽可能地工作，这就是计算RDD中的文件数。此操作也会失败，并显示OOM错误。所以我打开了spark-shell和PySpark，并使用默认设置运行了REPL&#

浏览 1提问于2018-08-11得票数 0

1回答

、、

我是Spark的初学者，开始用Python编写一些脚本。我的理解是Spark并行执行转换(map)。: (job_bundle[0], some_function(job_bundle[0], job_bundle[1])))file:/F:/usr/temp/sample1.zip 2020-1

浏览 32提问于2020-10-22得票数 1

回答已采纳

1回答

在员工节点上安装火花模块

、、、

我在cloudera环境中以独立模式运行SPARK 1.3。我可以从ipython笔记本上运行pyspark，但是一旦我添加了第二个工作节点，我的代码就会停止运行并返回一个错误。这是python2.6中的标准 """ """(3, int(n**0.5)+1, 2):

浏览 6提问于2015-06-25得票数 6

回答已采纳

1回答

如何基于控制字符读取日志文件和过滤器？

、、、

我是PySpark的新手，我想读取一个日志文件，其中包含很多行二进制代码，用换行符隔开。我需要使用以下方法过滤该文件：下面是一个输入文件中的一个示例行：spark=SparkSession(sc) textF

浏览 0提问于2021-02-03得票数 0

1回答

电火花纱获得烟斗拒绝许可

、、

我试图用CDH在纱线上运行电火花，在这个生火的主程序中，有一条类似于rdd.pipe("XXX.sh")的语句，每次我运行它时，都会弹出一个被拒绝的错误，我该怎么办来解决这个错误呢？谢谢。_0079_01_000001/pyspark.zip/pyspark/rdd.py"，第2346行，pipeline_func文件"/data/yarn/nm/usercac

浏览 3提问于2017-05-25得票数 0

3回答

使用Spark删除Azure blob中的文件有什么更快的方法？

、、、、

我在Azure上使用Databricks/Spark。我想删除存储在blob中的超过100,000个文本文件。该blob已挂载。我使用Python (PySpark)以并行方式删除这些文件的代码如下所示。to be very slow as well when spark job kicks off请注意，我使用dbutils

浏览 0提问于2019-06-02得票数 1

5回答

我在Spark中创建简单的RDD时遇到错误

、、

我正在使用Jupyter notebook，刚刚开始学习Apache spark，但在创建简单的RDD时遇到错误：错误是：，每种情况下都会发生这种情况

浏览 3提问于2017-03-30得票数 5

1回答

在python对象上使用并行函数

、、

在pyspark中可以在python对象上使用parallelize函数吗？我想在一个对象列表上并行运行，使用一个函数修改它们，然后打印这些对象。) p_configs_RDD=p_configs_RDD.map(func) return

浏览 11提问于2020-07-31得票数 0

1回答

如何将<class‘class’_. How .

、、、、

我对Spark完全陌生，目前我正在尝试使用Python编写一段简单的代码，对一组数据执行KMeans操作。中，当它运行model = kmeans.fit(vdf)时，我得到了以下错误：在org.apache.spark.api.python.PythonRunner(最近一次调用)：文件在main process() File "/usr/hdp/2.5.0.0-1245/spark

浏览 2提问于2017-03-02得票数 5

回答已采纳

1回答

为什么火花处理要花更长的时间？

、

我正在尝试使用Python (Pyspark)来学习火花。= sc.textFile(full_name, 2) res = rdd1.take(N) print(f"Spark processing: {end_time - start_time}")Regular processi

浏览 0提问于2022-02-21得票数 0

1回答

火花并行化集合

、、

我对火花很陌生，我不能运行并行化集合，这是我的代码： 'Apache', 'Spark', 'is', 'an', 'open-source', 'cluster-computing', 'framework', 'Apache', '<em

浏览 3提问于2020-05-20得票数 0

2回答

Amazon :有奇怪的依赖问题的火花

、、、、

一直以来，我都无法在EMR集群上运行一个pyspark作业，因此，我登录到主节点并在那里直接运行submit。我有一个python文件，提交给pyspark，在这个文件中我有：from pyspark import SparkContext, SparkConf16/01/31 21:45:57 INFO

浏览 5提问于2016-01-31得票数 3

回答已采纳

1回答

用于并行RDD的spark.default.parallelism默认为2，用于火花提交。

、

运行以下通过火花提交(spark.default.parallelism未设置)println("Partititon当使用火花壳连接到火花独立集群时，相同的代码返回正确的分区大小8。谢谢。

浏览 2提问于2016-02-13得票数 8

1回答

将解析文本文件火花发送到DataFrame

、

目前，我可以通过RDD使用以下代码将文本文件解析为DataFrame： # Do parse logic...raw_rdd = spark_context.textFile(full_source_path) # Convert RDD of strings to RDD of pyspark.sql.Rowrow_rdd = raw_<em

浏览 6提问于2016-09-02得票数 0

回答已采纳

1回答

Spark:如何将pairRdd的值转换为Rdd？

、

我有一个这样的pairRdd： rdd = sc.parallelize([{'f':[1,2,3]},{'f':[1,2]}])reduce_rdd = pair_rdd.reduceByKey(lambda x,y: x+y) 输出结果： [('f', [1, 2

浏览 14提问于2020-07-02得票数 1

回答已采纳

1回答

jupyter笔记本上的spark xml

、、

我正试图在我的jupyter笔记本上运行spark，以便使用spark读取xml文件。from os import environ我发现这是利用它的方法。但是，当我试图导入com.databricks.spark<

浏览 1提问于2021-03-17得票数 1

回答已采纳

1回答

ML流水线上的火花驱动程序内存问题

、、

我正在运行逻辑回归管道，在这一行上：在RDDLossFunction阶段，我反复得到以下错误：文件"/usr/spark-2.3.0/python/lib/pyspark.zip/pyspark/ml/base.py"，第132行，fit文件"/usr/spark-2.3

浏览 0提问于2018-06-07得票数 0

1回答

从本地连接到客户端cassandra

、、、

当我通过pyspark运行以下命令时，我能够从AWS读取，但是当我通过spark-submit提交相同的python文件时，我从本地获取rdd。你能给我推荐一下我缺少配置的地方吗？from pyspark import SparkConf, SparkContext conf = SparkConf().setAppName("testCassandra").

浏览 0提问于2017-04-14得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

需要RDD的实例，但返回了类“pyspark.rdd.PipelinedRDD”

PySpark:读取gzipped文件时为空RDD

pyspark和spark之间的记忆差异？