如何在spark中使用scala从多个文件中删除前几行/头

、、

我能够使用下面的代码删除单个文件的前几行：删除前5行： scala> valData = file.mapPartitionsWithIndex{ (idx, iter) => if (idx == 0) iter.drop(

浏览 54提问于2016-08-02得票数 1

回答已采纳

1回答

从星火中的多个文件夹加载多个文件

、

我有一个数据集，在主文件夹中包含多个文件夹，每个文件夹包含多个CSV文件。每个CSV文件都有三列，名为X、Y和Z。我想创建一个dataframe，以便前三列是三列X，Y，Z。我还想要另外两列，例如第四列包含读取CSV文件的文件夹的名称。第五列包含CSV文件的名称。如何在Scala和Spark中创建此数据？

浏览 5提问于2020-04-15得票数 5

回答已采纳

2回答

Spark Dataset加载多个CSV文件，如果所有文件中的标头不相同，则报告不匹配

、、、、

我正在尝试使用spark 2.1.0 API将多个csv文件从hdfs目录加载到Spark DataSet中： val csvData = spark.read.option("header", "trueSpark只从第一个文件中选取头部，并将其生成为DataSet的架构，忽略其余csv文件的头部。报告与csv文件包含更多或更少或不

浏览 0提问于2017-11-06得票数 1

1回答

分区JDBC在Spark中写入

、、、

我正在一个Scala + Spark项目中工作，在该项目中，我们将数据从文件加载到PostgreSQL中。它在独立模式下使用jdbc.write在本地运行良好，测试数据很小。但是由于生产数据是巨大的，我想使用一个集群，每个执行者拥有多个工作人员和一个逻辑处理器核心。谢谢!PS:使用Scala2.13.9和Spark<

浏览 4提问于2022-10-12得票数 1

回答已采纳

3回答

字符串列包含通过spark* scala进行精确匹配的单词*

、、

我有两个数据帧，第一个数据帧包含实际数据(从CSV文件读取)，第二个数据帧包含一个具有多个关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方)：数据帧-2：我想要的输出：我在这里使用spark scala。我想要一个与dataframe-1中的dataframe-2完全匹配的单词。我使用了like、rlike、contains等函数，但它没有给出我想要的输出。有人知道如何在<em

浏览 1提问于2021-02-12得票数 0

1回答

如何在运行scala的Bluemix Spark* notebook中运行shell命令？*

、、

有没有办法在运行scala内核的Bluemix Spark笔记本上运行shell命令？在Bluemix Spark python笔记本中，您可以简单地在shell命令前加上一个"!“前缀。似乎没有任何线条或外壳魔法(例如，在scala内核中定义以提供类似功能。例如，如何从scala notebook中下载用于使用wget进行分析的文件？

浏览 0提问于2016-05-11得票数 3

2回答

使用spark优化S3到S3的转换

、、、、

我正在学习spark/scala，并尝试使用scala语言尝试下面的场景。场景:从一个S3存储桶文件夹复制多个文件到另一个S3存储桶文件夹。到目前为止所做的事情： 1)使用亚马逊网络服务S3开发工具包和scala：-从S3源位置创建文件列表。-遍历列表，传递步骤1中的源和目标S3位置，并使用S3接口copyObject将这些文件

浏览 0提问于2018-04-15得票数 1

1回答

从HDInsight集群头节点运行spark应用程序

、、、、

我正在尝试使用命令从azure HDInsight集群的头节点运行scala应用程序。<storageaccountname>/sample.sas7bdat wasbs://containername@<storageaccountname>/sample.csv com.test.spark.Wordcount由: scala.collection.immutable.List$SerializationProxy :无

浏览 1提问于2017-03-27得票数 0

2回答

如何跳过Excel工作表的前几行？

、、

使用openpyxl，我尝试从第5行读取一些文件。文件的前四行是标题。然后，主要内容有一个不同的格式与标题。< index < stop: print c.value 如果删除前四行但是我有几百个这样的文件，每个文件都有一个四行的头。从文件</em

浏览 19提问于2015-03-08得票数 2

1回答

使用scala* /spark创建单元视图*

、、

如何以编程方式使用spark和scala在Hive中创建多个表视图？从位于单元中的表中创建一个视图。

浏览 0提问于2018-08-08得票数 1

1回答

使用scala和spark组合csv文件时，头写了多次

、

目前，我正在尝试将多个csv文件合并到一个文件中，文件头完全相同，但数据不同，它们被命名为- data__1，data__2。 } getData("data*") .write.csv("file:/path

浏览 3提问于2022-06-13得票数 0

2回答

将文件读取并附加到spark数据文件中

我已经创建了一个空的dataframe，并开始添加它，通过读取每个文件。但其中一个文件的列数比前一个文件多。如何仅为所有其他文件选择第一个文件中的列？= SparkSession.builder.\ config("spark.jars.packages","saurfang:spark-sas7bdat:2.0.0-df_spark=spark</

浏览 1提问于2019-09-06得票数 3

回答已采纳

1回答

如何捕捉oozie spark输出

、、

有没有办法捕获spark的输出，然后将其输入到shell中？我们目前正在使用scala创建jar文件，并希望我们的spark输出成为shell输入。我的想法是使用${wf:actionData(' spark -XXXX')'var'}我只是不知道如何在spark中实现它。所以基本上，我的问题是如何在oozie中从<

浏览 0提问于2017-05-24得票数 2

3回答

在中读取没有标头的蜂巢表

、、

from employee;abc 19 dapqr 30 er当我在“火花”中读到这篇文章时：df.show()|name| age| role|| da|| pqr| 30| er|+

浏览 2提问于2017-11-22得票数 4

回答已采纳

4回答

eclipse(使用scala环境设置)：对象apache不是包org的成员

、、

我搜索了这个错误，它显示spark jars没有被导入。所以，我也导入了"spark-assembly-1.4.1-hadoop2.2.0.jar“。但同样的error.Below是我真正想要运行的： object ABC { //Scala Main Method println("Spark

浏览 0提问于2016-04-19得票数 3

1回答

使用地板-mr在Scala无火花

、、

我试图在Scala中读取一个.parquet文件，而不使用Spark。我找到了，但到目前为止还没有找到如何使用从文件中实际读取(包括获取模式)。有些东西像RecordReader.java和RecordReaderImplementation.java (扩展了RecordReader)，但是我很难理解如何在Scala代码中使用它们。我对Scala和Parque

浏览 16提问于2016-06-10得票数 1

回答已采纳

1回答

星火生成路径是交叉编译的不兼容版本的Scala* (2.11.0)*

、、

我正在观察Scala中的一些构建错误。虽然我知道如何修复，但我仍然不明白它是如何在引擎盖下工作的。我首先阐述我的情况，并在最底层提出问题。在scala中，我需要选择2.12版本的scala这最终导致了许多构建错误(为了保存位置，只在这里发布一些错误)：从错误中，我得到了尝试scala 2.11的想法。错误消息中提到的jar文件都来自Spark2.4.5安装文件</em

浏览 5提问于2020-06-09得票数 0

回答已采纳

1回答

如何在pyspark中将第一行作为标题读取文本文件作为spark* context*

、

在spark context中读取文本文件后得到的数据帧| _1| _2| _3||name|age|salary|+---+------+| bum| 30| 1500|+----+---+------+## from sparkcontext df_txt=spark.sparkContext.textFile("&

浏览 0提问于2020-10-24得票数 1

4回答

无法运行从Scala文件创建的jar文件

、、、

这是我用Scala编写的代码。 println("Hello World from Scala!")这是我的build.sbt。name := "hello-world"scalaVersion := "2.11.5"这是我运行的创建jar文件的命令sbt package 我的问题是，在t

浏览 0提问于2015-06-02得票数 2

回答已采纳

2回答

Apache不能反序列化dataset："NoSuchMethodError“

、、、

我正在尝试使用(0.7.2，在Mac上本地运行的.NET安装)来探索从s3桶加载的数据。UDPATE2:根据我从工件列表中删除的jackson库，因为它们现在已经在jars/文件夹中了--现在唯一添加的工件是上面的aws构件。然后，通过在笔记本中输入以下内容(如所示)，清理类路径：z.reset()val p = spark.read.textFile

浏览 2提问于2017-08-20得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从星火中的多个文件夹加载多个文件

Spark Dataset加载多个CSV文件，如果所有文件中的标头不相同，则报告不匹配

分区JDBC在Spark中写入

字符串列包含通过spark* scala进行精确匹配的单词*

如何在运行scala的Bluemix Spark* notebook中运行shell命令？*

使用spark优化S3到S3的转换

从HDInsight集群头节点运行spark应用程序

如何跳过Excel工作表的前几行？

使用scala* /spark创建单元视图*

使用scala和spark组合csv文件时，头写了多次

将文件读取并附加到spark数据文件中

如何捕捉oozie spark输出

在中读取没有标头的蜂巢表

eclipse(使用scala环境设置)：对象apache不是包org的成员

使用地板-mr在Scala无火花

星火生成路径是交叉编译的不兼容版本的Scala* (2.11.0)*

如何在pyspark中将第一行作为标题读取文本文件作为spark* context*

无法运行从Scala文件创建的jar文件

Apache不能反序列化dataset："NoSuchMethodError“

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐