rdd - 腾讯云开发者社区

、

当我试图加载类时，我会得到以下编译错误：这是我正在处理的代码

浏览 2提问于2017-06-09得票数 3

回答已采纳

1回答

PySpark加入混叠共分区RDDs

、、、

from pyspark import SparkContext rdd2 = rdd1.mapValues(lambda x: x)rdd1.keys().glom().collect() >&

浏览 2提问于2016-07-24得票数 4

回答已采纳

1回答

需要RDD的实例，但返回了类“pyspark.rdd.PipelinedRDD”

、、、

df,spark):return result.rdd.sample(False, 0.1).map(lambda row : (row.temperature))任何帮助都将是

浏览 0提问于2017-06-04得票数 5

回答已采纳

2回答

cartesianproduct产品的Spark性能调优

、

下面是我的问题， ((substring($"rdd2.FIRST_NAME",0,3) === $&quo

浏览 2提问于2018-06-20得票数 0

2回答

在pyspark中创建rdd的rdd

、、、

可以在pyspark中创建rdd的rdd吗？我试过了rdd2=sc.parallelize([4,5,6])并得到错误

浏览 22提问于2019-11-17得票数 0

回答已采纳

1回答

根据火花中的第二个rdd值减去rdd的线

、

我有两个RDDs名称：releventResults和ranoms2:DestIP:173.194.116.42,1:SrIP:172.20.16.121,3:DestPort:80,=>4:Time_Range:11:00-12:00 = 1.02:DestIP:216.92.251.5,4:Time_Range:10:00-11:00,3:DestPor

浏览 3提问于2015-11-17得票数 0

回答已采纳

3回答

如何在PySpark中检查空RDD

、、、

val count = rdd.count() var fileName= outputDirectory + "/tweets_" + time.milliseconds.toString outputRDD.saveAsTex

浏览 1提问于2017-01-07得票数 3

1回答

查看PySpark脚本的胶合作业输出的最佳方法

、、、

(RDD.scala:324)at org.apache.spark.rdd.MapPartitionsRDD.compute(RDD.scala:324)at org.apache.spark.rdd.Un

浏览 22提问于2020-09-23得票数 0

回答已采纳

1回答

持久化后的火花- RDD过程两次

我做了一个RDD，并从原点创建了另一个RDD，如下所示。val RDD2 = RDD1.map({ ....但不知何故，"RDD1“被印在"RDD</e

浏览 0提问于2018-11-22得票数 1

回答已采纳

2回答

根据位于另一个RDD中的键替换RDD中的值

、、

如何根据另一个RDD中的键分配/映射RDD中的值val rdd1 = sc.parallelize(Seq((1, "A"), (2, "B"))) val rdd2 = sc.parallelize

浏览 2提问于2016-01-18得票数 1

回答已采纳

1回答

如何删除元素如何从一个rdd中删除元素并在pyspark中创建新的rdd？

、、、、

我创建了2个Rdd，如下所示rdd1=rdd.groupByKey().map(lambda x :list(x[1]))[['A

浏览 0提问于2018-12-04得票数 0

1回答

星火作业失败，但有org.apache.spark.shuffle.FetchFailedException异常

、、

at org.apache.spark.rdd.RDD.iterator(RDD.scala:337) at org.apache.spark.rdd.MapPartitionsRDD.computeat org.apache.spark.

浏览 19提问于2022-05-11得票数 0

1回答

同一类型(字符串)的Apache火花类型不匹配

、、、

type mismatch; required: org.apache.spark.rdd.org.apache.spark.rdd.org.apache.spark.rdd.or

浏览 3提问于2015-03-31得票数 2

2回答

cache()是改变了RDD的状态还是创建了一个新的状态？

、、、

在RDD上调用cache()时，RDD的状态是否发生了变化(并且返回的RDD只是this，以便于使用)，还是创建了一个新的RDD --包装了现有的RDD？

浏览 4提问于2016-03-24得票数 4

回答已采纳

2回答

如何将两个rdd合并为spark中的on (Python)

、、

例如，有两个rdd2，如"rdd1 = [1,2,3,4]，rdd2= [5,6,7,8]“。以及如何将两者结合起来：[1,2,5,6,3,4,7,8]。有什么功能可以解决这个问题吗？

浏览 2提问于2017-10-27得票数 1

回答已采纳

3回答

如何在火花放电中将DataFrame转换回正常的RDD？

、、

我需要用方法，该方法在DataFrame上不可用。那么如何从DataFrame数据创建一个RDD呢？从@dpangmao的答案中更新：方法是.rdd。@property """ Return the content of the :class:`DataFrame` as an :class:`

浏览 5提问于2015-03-12得票数 63

回答已采纳

1回答

def zipPartitions[B, C, D, V](rdd2: RDD[B], rdd3: RDD[C], rdd4: RDD[D])(f: (Iterator[T], Iterator[[V] def zipPartitions[B, C, D, V](rdd2: RDD[B], rdd3: RDD[C], rdd4: RDD[D], preservesPar

浏览 5提问于2014-05-14得票数 0

回答已采纳

3回答

理解火花的缓存

= rdd1.filter(...)rdd2.saveAsTextFile("...")基本上是重复的，不是吗？因为一旦计算了rdd2和rdd3，我就不再需要rdd1

浏览 2提问于2015-04-27得票数 47

回答已采纳

1回答

过滤出pyspark RDD中的非数字值

、、、、

我有一个RDD，它看起来像这样： [["3331/587","Metro","1235","1000"],["5987/215"我使用以下代码来收集"City“值： rdd.filter(lambda row: row[1] == 'City').ma

浏览 23提问于2020-08-23得票数 0

回答已采纳

1回答

在RDDs上点燃左外接和重复键

、、、

我有两个RDD (键，值)。我的第二个RDD比我的第一个RDD短。我想将我的第一个RDD的每个值与第二个RDD中的相应值关联起来，这是关于键的。val (rdd1: RDD[(key,A)])val (rdd3: RDD[R]) 对于rdd1.count()，>> rdd2.count()和r

浏览 2提问于2021-03-09得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么shell无法加载带有RDD导入的类的文件？

PySpark加入混叠共分区RDDs

需要RDD的实例，但返回了类“pyspark.rdd.PipelinedRDD”

cartesianproduct产品的Spark性能调优

在pyspark中创建rdd的rdd

根据火花中的第二个rdd值减去rdd的线

如何在PySpark中检查空RDD

查看PySpark脚本的胶合作业输出的最佳方法

持久化后的火花- RDD过程两次

根据位于另一个RDD中的键替换RDD中的值

如何删除元素如何从一个rdd中删除元素并在pyspark中创建新的rdd？

星火作业失败，但有org.apache.spark.shuffle.FetchFailedException异常

同一类型(字符串)的Apache火花类型不匹配

cache()是改变了RDD的状态还是创建了一个新的状态？

如何将两个rdd合并为spark中的on (Python)

如何在火花放电中将DataFrame转换回正常的RDD？

过载星火RDD函数zipPartitions中的错误

理解火花的缓存

过滤出pyspark RDD中的非数字值

在RDDs上点燃左外接和重复键

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐