在pyspark中乘以两个RDD

、、

我对pyspark是个新手。我一直在尝试将两个稀疏RDD相乘。whichI尝试生成两个稀疏矩阵的代码，我写了一个函数来乘以两个RDD，但我认为这不是解决方案，因为计算不是并行进行的。有人能帮我一下吗？如何并行地乘以RDD？我在这些网站上尝试了很多资源，但没有想出解决方案。import findsparkimport numpy as np import pyspark</e

浏览 28提问于2019-11-02得票数 1

2回答

访问火花放电中的JavaRDD

、、、

在中，我通过调用从Java加载的类的静态函数来创建一个JavaRDD对象。是否可以使用Pyspark访问这个JavaRDD？从SqlContext访问表。获取表的RDD，并将其内容映射回反序列化版本。

浏览 8提问于2015-08-20得票数 3

1回答

在PySpark中加入和乘以RDDs

、、、

我有两个RDDs，我想把它们乘以键。这可以通过合并两个RDD并将元素乘以，或者通过在不合并RDD的情况下乘以RDD来实现。假设我有这两个RDDs：rdd2 = [("dog", 9), ("ox"

浏览 4提问于2021-12-17得票数 0

2回答

火花相交

、

我希望在pyspark中得到两个RDD的交集。它们看起来如下：rdd2 = sc.parallelize([["abc","123"],["df",345],["ghi","678"]) 是否可以使用pyspark<

浏览 4提问于2016-12-19得票数 1

回答已采纳

1回答

需要RDD的实例，但返回了类“pyspark.rdd.PipelinedRDD”

、、、

嗨，我在Notebook中有这段代码，并尝试编写python spark代码： spark.sql("SELECTdf,spark):return result.rdd.sample(False, 0.1).map(lambda row : (row.temper

浏览 0提问于2017-06-04得票数 5

回答已采纳

1回答

电火花rdd滤波器重复

、、

我有这个rdd我对python和pyspark很陌生，我只想用RDD方式来解决这个问题，我知道使用dataframe方法的解决方案，但只需要使用rdd我试图在计数单个元组&#x

浏览 3提问于2020-09-04得票数 0

回答已采纳

1回答

加入PySpark不加入任何值

、、、、

在PySpark中，我想用键值对对两个RDD进行完全的外部连接，其中键可以是None。])看起来，PySpark加入了键为空的记录：>>> [(None, ('a','c')), (None, ('a'

浏览 0提问于2016-03-02得票数 1

1回答

RobustScaler in PySpark

、、

在滑雪板中，可以在。import name 'RobustScaler' from 'pyspark.ml.feature' [ -2., 1., 3.],

浏览 0提问于2020-01-24得票数 4

回答已采纳

2回答

如何将2个RDDs的列从单个RDD中添加到其中，然后根据PySpark中的日期数据进行行聚合

、、、、

我在PySpark中有两个PySpark：[(u'2013-01-31 00:00:00', u'a', u'Pab', u'abc', u'd'),(u'2013-01-31 00:00RDD2:两

浏览 7提问于2015-12-07得票数 5

1回答

如何使用pyspark.mllib rdd* api度量来测量pyspark.ml (新数据帧api)？*

、、

MlLib的旧API有评估指标类：，而新的dataframe API没有这样的类：

浏览 0提问于2016-09-06得票数 0

2回答

将数据保存到HDFS的格式是什么？

、、、

在dataframe或rdd中是否有其他格式可用于在Hadoop中保存数据？

浏览 2提问于2017-12-21得票数 1

1回答

电火花纱获得烟斗拒绝许可

、、

我试图用CDH在纱线上运行电火花，在这个生火的主程序中，有一条类似于rdd.pipe("XXX.sh")的语句，每次我运行它时，都会弹出一个被拒绝的错误，我该怎么办来解决这个错误呢？谢谢。_0079/container_1495632173402_0079_01_000001/pyspark.zip/pyspark/rdd.py"，第2346行，在"/data/yarn&

浏览 3提问于2017-05-25得票数 0

2回答

如何在火花放电中将密集向量的关系式转换成DataFrame？

、、、、

我有这样的DenseVector RDD[DenseVector([1.0, 0.0, 1.0, 1.0, 0.0, 0.0,/sql/session.py", line 520, in createDataFrame File "/opt/BIG-DATA/spar

浏览 3提问于2016-12-26得票数 11

回答已采纳

2回答

使用pyspark将两个csv文件连接到键值rdd中

、、、

我正在尝试使用pyspark将两个没有共同之处(没有键是公共的)的csv文件组合成一个键值成对的rdd 让我们假设A.csv有 ac 而B.csv有 13 在pyspark中有没有一个选项可以通过连接这两个来获得一个rdd，就像这样 a:1c:3 当然，两个csv文件中的行数应该匹配。这是在pyspark中很容易做的事情，还是应该首先在常规的python<em

浏览 13提问于2019-12-17得票数 0

1回答

Pyspark:使用map函数而不是collect来迭代RDDs

、、

在PySpark中，我有两个RDD，它们的结构是(key，list of list)：[(u'100', (u'200', [[u'5196352600', u'194837393', u'99']])

浏览 0提问于2017-10-12得票数 0

1回答

对象在尝试收集RDD时不可迭代，pyspark

、、、、

在将一个顶级外部函数传递到RDD_old.reduceByKey之后，当我试图从RDD_new收集结果时，出现了这个错误。,edge): self.edge = edgeDictionaryRDD = sc.parallelize([treeStruct1,treeStruct2]) 然后，我将一个定义在<

浏览 0提问于2017-03-08得票数 0

1回答

如何通过在python中添加2个RDD的对应元素来创建RDD

、、

所以我有两个RDD1 (假设是RDD1和RDD2)，每个都有一个数字列表。这两个列表的大小相同。我想创建一个RDD3，其中RDD3中的每个元素都是RDD1和RDD2的相应元素的相加。如何在python中使用pyspark函数完成此操作？

浏览 12提问于2020-07-10得票数 0

1回答

Pyspark：“rdd”对象没有属性“平面映射”

、、、

我是刚接触过Pyspark的人，我实际上是在尝试用Pyspark对象构建一个平面图。但是，根据文档，即使这个函数显然存在于吡火花RDD类中，我也无法使用它并得到以下错误：我在下面一行中调用后一个函数： my_rdd = my_rdd.flatmap(lambda r: (r[5].s

浏览 2提问于2018-10-28得票数 4

回答已采纳

1回答

如何将<class‘class’_. How .

、、、、

中，当它运行model = kmeans.fit(vdf)时，我得到了以下错误：在org.apache.spark.api.python.PythonRunner/lib/pyspark.zip/pyspark/worker.py"，第106行中，在process serializer.dump_stream(split_index迭代器)中，在文件&quo

浏览 2提问于2017-03-02得票数 5

回答已采纳

1回答

在pyspaek中组合两个rdd

、、、

我在pyspark有两个rddrdd2=sc.parallelize(['c','d'])rdd3=rdd1.map(lambda x:x)+rdd2.

浏览 13提问于2019-11-17得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

访问火花放电中的JavaRDD

在PySpark中加入和乘以RDDs

火花相交

需要RDD的实例，但返回了类“pyspark.rdd.PipelinedRDD”

电火花rdd滤波器重复

加入PySpark不加入任何值

RobustScaler in PySpark

如何将2个RDDs的列从单个RDD中添加到其中，然后根据PySpark中的日期数据进行行聚合

如何使用pyspark.mllib rdd* api度量来测量pyspark.ml (新数据帧api)？*

将数据保存到HDFS的格式是什么？

电火花纱获得烟斗拒绝许可

如何在火花放电中将密集向量的关系式转换成DataFrame？

使用pyspark将两个csv文件连接到键值rdd中

Pyspark:使用map函数而不是collect来迭代RDDs

对象在尝试收集RDD时不可迭代，pyspark

如何通过在python中添加2个RDD的对应元素来创建RDD

Pyspark：“rdd”对象没有属性“平面映射”

如何将<class‘class’_. How .

在pyspaek中组合两个rdd

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐