如何使用saveAsNewAPIHadoopFile spark scala将文件保存在同一目录中

文章/答案/技术大牛

发布

1回答

、、、

我正在使用火花流，我想将每一批火花流保存在我的本地Avro格式。我已经使用saveAsNewAPIHadoopFile将数据保存为Avro格式。这样做效果很好。但它会覆盖现有文件。下一批数据将覆盖旧数据。有没有办法将Avro文件保存在通用目录中？我尝试添加Hadoop job conf的一些属性，以便在文件名中添加前缀。但不能处理任何属性。dst

浏览 110提问于2019-06-21得票数 2

1回答

提交:使用火花提交的ship jar依赖关系

、、、

和org.elasticsearch.hadoop.mr.LinkedMapWritable类的elasticsearch-hadoop jar文件，然后使用--jars参数运行我的工作，我可以看到文档出现在我的elasticsearch集群中。(PythonRDD.scala:609)

浏览 5提问于2015-04-03得票数 4

回答已采纳

1回答

将RDD保存为Avro文件

、

我已经编写了这个示例程序来将RDD持久化到avro文件中。我使用的是CDH 5.4和Spark 1.3{"namespace": "com.abhi", "name{AvroKeyOutputFormat, AvroJob, 当我将代码提交到ha

浏览 0提问于2015-11-02得票数 0

1回答

Spark saveAsNewAPIHadoopFile可在本地模式下工作，但不能在群集模式下工作

、、、

在升级到CDH5.4和Spark streaming 1.3后，我遇到了一个奇怪的问题，saveAsNewAPIHadoopFile不再像它应该的那样将文件保存到HDFS。我可以看到正在生成_temp目录，但是当保存完成时，_temp将被删除，只留下一个包含成功文件的空目录。我有一种感觉，这些文件是生成的，但后来，在删除_temp之前，它们无法从_temp目录中移出。只有在Spark Cluster

浏览 6提问于2015-06-17得票数 3

2回答

使用saveAsNewAPIHadoopFile时文件被覆盖

、

我们使用Spark 1.4进行Spark流媒体。Kafka是Spark Stream的数据源。记录每秒都会在Kafka上发布。我们的要求是每分钟将Kafka上发布的记录存储在一个文件夹中。流将每五秒读取一次记录。例如，在1200PM和1201PM期间发布的记录存储在文件夹“1200”中；1201PM和1202PM之间的记录存储在文件夹"1201“中，依此类推。, Str

浏览 0提问于2016-03-23得票数 1

1回答

_spark_metadata引发问题

、、

我在Scala中使用Spark，我有一个目录，其中有多个文件。在这个目录中，我有由Spark生成的Parquet文件和由Spark流生成的其他文件。而星光流生成一个目录_spark_metadata。我面临的问题是，当我使用Spark (sparksession.read.load)读取目录时，它只读取由<e

浏览 0提问于2018-11-26得票数 2

2回答

丝上的星火是如何处理文件的？

我正在使用Yarn在Spark中执行一个过滤器，并接收以下错误。任何帮助都很感激，但我的主要问题是为什么找不到文件。-aa00/05/merged_shuffle_1_343_1我可以配

浏览 3提问于2015-07-08得票数 10

回答已采纳

2回答

分解火花列

、、

通过分解，我意味着创建列中每个唯一值到同一个ID的映射。例如，原始数据文件：| col1| col2|1473513432|4060600988513370| A|到保理版本中，这是相当简单的，但是由于Spark在节

浏览 0提问于2016-09-28得票数 2

回答已采纳

1回答

为什么我不能在EMR上用打开本地文件

、、、

我在工作时使用AWS电子病历。如果启动星火外壳，我可以运行scala命令，但不能在本地文件中读取。例如：org.apache.spark.sql.AnalysisException: Pathdoes not exist: hdfs://ip-10-99-99-99.ec2.internal:8020/u

浏览 1提问于2020-01-09得票数 0

回答已采纳

1回答

如何仅针对一个作业使用SBT构建

、、、

我正在尝试建立一个单一的spark scala作业。据我所知，应该使用spark目录中的<sbt assembly>命令来完成，但是使用此方法将构建那里存在的所有作业。有没有办法一次构建一个特定的文件？

浏览 0提问于2016-01-27得票数 0

1回答

Spark Streaming :通过从一个HDFSdir读取到另一个来将数据写入到HDFS

、、、

我正在尝试使用火花流将数据从一个HDFS位置读取到另一个HDFS位置下面是我在spark-shell上的代码片段但是我看不到在HDFS输出目录上创建的文件，您能否指出如何在HDFS上加载这些文件scala> sc.stop() scala> import org.apache.

浏览 12提问于2018-12-21得票数 1

回答已采纳

4回答

如何在spark中检查路径是否存在？

、、

我的datetime路径如下：/data/2020-04-02/data.csv 有几天，文件可能不存在，如果我调用spark.read.load(

浏览 0提问于2020-07-15得票数 1

2回答

如何将文件从一个S3桶目录移动到同一个桶中的另一个目录？Scala/Java

、、、

我希望使用scala将s3桶中某个目录下的所有文件移动到同一个桶中的另一个目录中。以下是我所拥有的： val sourcePath = new Pathval destPath = new Path("s3a:/path-to-destinati

浏览 18提问于2022-06-06得票数 2

2回答

在应用程序之间共享Spark表

、、

在驱动程序中，我使用Spark将从Twitter流中提取的一些数据保存在表中。我不使用Hive，所以它被保存到spark-warehouse目录中。然后我尝试通过spark-shell访问它，但是sql()命令无法访问该表(它甚至没有在sqlContext.tables中列出)。由驱动器程序和星火壳创建的表都保存在同一个文件夹中

浏览 3提问于2017-01-23得票数 2

1回答

使用spark/scala将文件从子目录复制到hdfs中的基目录

、、、、

每次作业运行时，我都会在hdfs基本目录下创建文件夹。每个文件夹下都有.dat文件。例如。基目录：- /user/srav/子目录：- /user/srav/20190101 /user/srav/201

浏览 0提问于2019-10-30得票数 0

1回答

如何使用星火创建MapFile并访问它？

、、、

下一步是访问文件。使用创建parts的目录名失败，说明它找不到data文件。因此，我研究了HashPartitioner的重要性，并发现它在内部使用它来识别要使用的读取器，但是Spark似乎没有使用相同的分区逻辑。所以我修改为： rdd.partitionBy(new org.apache.spark.HashPartitioner(128)).sortByKey().saveAsNewAPIHadoopFile我<

浏览 5提问于2015-04-18得票数 3

回答已采纳

1回答

在spark中尝试以avro格式保存文件时获取ClassCastException

、、

我正在尝试处理一个文件，然后使用saveAsNewAPIHadoopFile方法将其保存为avro文件格式。$anonfun$apply$4.apply(PairRDDFunctions.scala:1106) at org.apache.<e

浏览 0提问于2018-12-11得票数 1

回答已采纳

6回答

无法安装pyspark

、

我正在尝试安装pyspark，如下所示：我得到了这个错误：已经安装了pypandoc

浏览 6提问于2018-07-24得票数 15

2回答

将两个存在于蜂箱中的表连接在一起

、、、

我已经在eclipse中编写了Java程序来连接两个表，但是我在package附近得到了一个错误，下面是错误 package joins; import org.apache.spark.SparkContext; importorg.apache.spark.api.java

浏览 0提问于2015-10-26得票数 0

1回答

火花1.5.2:无法持久化广播到磁盘的工作人员

最初，工作完成成功，但似乎在一两天后，一些工作将开始失败。(ResultTask.scala:62) at org.apache.spark.executor.Executor，很明显，块目录(在本例中是28)中的已编号子目录不存在，它似乎是FileNotFoundException的根

浏览 2提问于2016-05-04得票数 0

回答已采纳

点击加载更多