如何以最有效的方式删除spark RDD的标题行？

、

这是我拥有的数据框架的示例。顺便说一句，这类问题被一些公司作为谜题提出，以测试对Spark数据帧的理解。因此，与其提出避免这个问题的理想方法，不如想出最有效的办法。

浏览 37提问于2019-12-02得票数 0

1回答

在地图函数中读取数据？

、、、

| file_pathabc | s3://data/file1.json对于此数据中的每一行，我希望以分布式方式读取位于file_path 中的.文件的内容。以下是我尝试过的： r

浏览 1提问于2020-09-28得票数 1

3回答

如何将RDD[Array[Any]]转换为DataFrame？

我的RDD[ArrayAny]如下所示：1556273771,Mumbai,1189193,1189198,0.56,-1,India,Australia,1571215104,15712151664567362933,9374749392我需要将其转换为10列的数据帧，但我对spark是个新手。请让我知道如何以最简单

浏览 0提问于2019-10-17得票数 1

1回答

从文件中读取图形

、、、

希望在我的Windows机器上运行一个GraphX示例，使用SparklyR安装Hadoop/Spark的SparklyR。scala>"V1" "V2"1001 9308122\tmp\hadoop中安装了正确的winutils。是否有遗漏的代码或路径可以消除下面的错

浏览 3提问于2017-01-02得票数 0

回答已采纳

1回答

Pyspark dataframe:从csv加载，然后删除第一行

、、、、

如何删除第一行，并使第二行作为我的标题？我见过一些RDD解决方案。但我无法加载该文件，并且使用以下代码时出现错误"RDD is file“ items = sc.textFile(f"abfss://{container}@{storage_account_name}.dfs.core.windows.net/tmp/items.csv") firstRow=data.first() 因此，我更喜欢

浏览 30提问于2020-03-20得票数 0

回答已采纳

2回答

火花:统计摘要

、

我正在尝试使用星火汇总统计数据，如：所述import org.apache.spark.mllib.linalg.Vector required: org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg

浏览 3提问于2015-01-23得票数 1

回答已采纳

1回答

如何在spark* scala中读取文件时从文件中删除页脚*

、

我正在尝试在读取文件时从文件中删除页脚。是否有类似"footer“= "true”的选项。

浏览 8提问于2019-10-11得票数 0

13回答

如何跳过星火中CSV文件的标题？

、、

假设我为一个Spark上下文提供了三个要读取的文件路径，并且每个文件在第一行中都有一个模式。我们如何从标头跳过模式行？val rdd=sc.textFile("file1,file2,file3") 现在，我们如何从这个rdd跳过头行？

浏览 8提问于2015-01-09得票数 74

回答已采纳

1回答

利用apache和scala对数据进行预处理

、、

我对spark和scala非常陌生，因此我有一些问题涉及到使用spark进行数据预处理和使用rdds。我正在做一个小项目，我想用火花实现一个机器学习系统。使用算法是可以的，我认为，但我在数据预处理方面有问题。我有一个包含30列和大约100万行的数据集。"_txt“结尾的所有列我知道我不能删除

浏览 3提问于2015-07-21得票数 3

回答已采纳

4回答

如何从星火中的RDDs和DataFrames中过滤？

、、、

mobile" 1595"2015-03-16T00:19:39" "desktop" 2460RDD2.first() //returns: "2015-03-16T00:09:55" "mob

浏览 3提问于2016-02-08得票数 2

回答已采纳

1回答

如何将RDD拆分为多个(较小的) RDD，每个RDD的行数最多，并且不使用ID列

、、

最相似的是这个：我

浏览 8提问于2015-03-23得票数 3

回答已采纳

1回答

如何从目录中读取所有文件并并行执行操作？

、、

假设我在目录中有一些文件，我想读取每个文件，并从文件中提取文件名和第一行(即标题)进行一些验证。我们如何在spark中做到这一点(使用python)。input_file = sc.textFile(sourceFileDir)目前，我正在使用for循环执行这些要求(上面提到的

浏览 11提问于2018-01-22得票数 1

回答已采纳

1回答

Spark/Scala:无法进行RDD到DF的转换

、、、、

我是scala(2.11)和spark (1.6.0)的新程序员，正在尝试将RDD转换为没有spark-csv包的DF (为了练习，但也是因为一些技术问题)。在阅读了Spark的入门指南和stackoverflow的所有相关帖子后，我不知道如何让一些方法(4)对我有效，我也不知道为什么-only one：前三个方

浏览 0提问于2017-01-05得票数 1

3回答

从缓存中丢弃spark数据帧

、、

我使用的是带有python api的Spark 1.3.0。在转换巨大的数据帧时，我缓存了许多DFs以加快执行速度；df2.cache() 一旦某些数据帧的使用结束，不再需要，我如何从内存中删除DF (或取消缓存？？)？例如，在整个代码中都使用df1，而将df2用于很少的转换，此后再也不需要它了。我想强制删除df2以释放更多的内存空间。

浏览 2提问于2015-08-26得票数 39

2回答

为什么列表应该先转换为RDD，然后再转换为Dataframe？有没有办法把list转换成dataframe？

、、、

我是spark的新手，我有一些简单的问题。我想使用prefixspan的方法，但它只支持数据集和数据帧。因此，我将list转换为rdd，然后将其转换为dataframe。但是为什么list要先转换成rdd呢？为什么列表不能直接转换为dataframe？data = [Row([[1, 2], [3]]), Row([[1], [3, 2], [2]]), Row([[1, 2], [5]]), Row([[6]])]rdd

浏览 71提问于2021-09-28得票数 0

1回答

使用Scala/Spark列出目录中的文件(包括文件信息)

、、、

我是Scala/Spark的新手，希望你们能帮助我。我想在一个hdfs的目录中获取在某个时间戳之后创建的文件，以便在Zeppelin中进行一点监控。我发现这对我来说很有效，可以获得我需要的所有信息： val fs = FileSystem.get(new Configuration()) val dir: String = "some/hdfs/path中创建一个DataFrame，每个文件都有一行信息(或者至少上面提到的

浏览 18提问于2020-12-10得票数 1

回答已采纳

2回答

如何将RDD[CassandraRow]转换为DataFrame？

、、、、

(" ")).map(x =>(x(1))).toDF("ondate")正如您所看到的，我首先将cassandraRow rdd转换为string，然后映射到我想要的格式。我发现这个方法变得很复杂，因为rdd包含多个颜色，而不是一个(createdon)，如示例所示。scalaVer

浏览 5提问于2017-05-30得票数 0

回答已采纳

3回答

将数据帧中的向量列转换回数组列

、、

我有一个包含两列的数据帧，其中一列(称为dist)是一个密集向量。如何将其转换回整数数组列。---++---+-----+|2.0|[4.0]||4.0|[8.0]|我尝试使用以下udf的几个变体

浏览 2提问于2016-03-08得票数 6

回答已采纳

1回答

在pySpark中，如何有效地替换字符串数据帧中多个正则表达式模式的所有实例？

、、、

我需要从包含字符串的列中删除每个名称。一个示例字符串是“John to to the park”，我需要将“John”从其中删除，理想情况下只需替换为“name”即可。在'John and Mary to to market‘的情况下，输出将是'NAME and NAME to market’。为了支持这一点，我有一个最频繁出现的20k名称的有序列表。= df.rdd.map(lambda line: removeNames(li

浏览 23提问于2019-05-30得票数 0

7回答

从spark* dataframe获取特定行*

、

scala spark数据帧中有没有df[100, c("column")]的替代品？我想从spark data frame的一列中选择特定的行。例如，上述R等效代码中的100th行

浏览 613提问于2016-02-07得票数 45

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在地图函数中读取数据？

如何将RDD[Array[Any]]转换为DataFrame？

从文件中读取图形

Pyspark dataframe:从csv加载，然后删除第一行

火花:统计摘要

如何在spark* scala中读取文件时从文件中删除页脚*

如何跳过星火中CSV文件的标题？

利用apache和scala对数据进行预处理

如何从星火中的RDDs和DataFrames中过滤？

如何将RDD拆分为多个(较小的) RDD，每个RDD的行数最多，并且不使用ID列

如何从目录中读取所有文件并并行执行操作？

Spark/Scala:无法进行RDD到DF的转换

从缓存中丢弃spark数据帧

为什么列表应该先转换为RDD，然后再转换为Dataframe？有没有办法把list转换成dataframe？

使用Scala/Spark列出目录中的文件(包括文件信息)

如何将RDD[CassandraRow]转换为DataFrame？

将数据帧中的向量列转换回数组列

在pySpark中，如何有效地替换字符串数据帧中多个正则表达式模式的所有实例？

从spark* dataframe获取特定行*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐