在spark/scala中循环和处理多个HDFS文件

基础概念

Apache Spark 是一个快速、通用的大数据处理引擎，支持多种编程语言，包括 Scala。HDFS（Hadoop Distributed File System）是 Hadoop 的分布式文件系统，用于存储大规模数据集。在 Spark/Scala 中处理多个 HDFS 文件通常涉及读取这些文件、进行必要的转换和操作，然后输出结果。

类型

在 Spark/Scala 中处理 HDFS 文件的类型主要包括：

文本文件：常见的 CSV、TXT 等格式。
序列化文件：如 Parquet、ORC 等列式存储格式。
二进制文件：如图片、音频等。

应用场景

数据分析：对大规模数据进行统计分析、数据挖掘等。
机器学习：训练模型、预测等。
日志处理：实时或批量处理日志数据。

示例代码

以下是一个简单的示例，展示如何在 Spark/Scala 中循环处理多个 HDFS 文件：

import org.apache.spark.sql.{SparkSession, DataFrame}

object HDFSFileProcessor {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("HDFS File Processor")
      .master("local[*]")
      .getOrCreate()

    val hdfsFilePaths = List(
      "hdfs://path/to/file1.csv",
      "hdfs://path/to/file2.csv",
      "hdfs://path/to/file3.csv"
    )

    hdfsFilePaths.foreach { filePath =>
      val df = spark.read.option("header", "true").csv(filePath)
      // 进行数据处理
      val processedDF = df.filter("some_condition")
      // 输出结果
      processedDF.write.mode("overwrite").csv(s"hdfs://path/to/output/${filePath.split('/').last}")
    }

    spark.stop()
  }
}

遇到的问题及解决方法

问题：读取 HDFS 文件时遇到权限问题

原因：可能是由于 HDFS 上的文件权限设置不正确，导致 Spark 无法读取文件。

解决方法：

检查 HDFS 文件的权限，确保 Spark 应用程序有足够的权限读取文件。
使用 hadoop fs -chmod 命令修改文件权限。
确保 Spark 应用程序运行的用户有权限访问 HDFS 文件。

问题：读取 HDFS 文件时遇到网络问题

原因：可能是由于网络不稳定或 HDFS 集群节点不可用。

解决方法：

检查网络连接，确保 Spark 应用程序能够访问 HDFS 集群。
检查 HDFS 集群的节点状态，确保所有节点正常运行。
增加重试机制，处理短暂的网络问题。

参考链接

希望这些信息对你有所帮助！

spark-submit不适用于hdfs中的jar

、、

这是我的情况： Apache spark版本2.4.4 Hadoop版本2.7.4 我的应用程序jar位于hdfs中。我的spark-submit看起来像这样： /software/spark-2.4.4-bin-hadoop2.7/bin/spark-submit \ --class com.me.MyClass --master spark://host2.local:7077 \ --deploy-mode cluster \ hdfs://host2.local:9000/apps/myapps.jar 我得到了这个错误： Exception in thread "main&

浏览 0提问于2019-10-15得票数 0

2回答

如何使用Spark从HDFS读取文件？

、、

我已经构建了一个使用Apache的推荐系统，它的数据集存储在我的项目文件夹中，现在我需要从HDFS访问这些文件。如何使用Spark从HDFS读取文件？我就是这样初始化我的星火会话的： SparkContext context = new SparkContext(new SparkConf().setAppName("spark-ml").setMaster("local") .set("fs.default.name", "hdfs://localhost:54310").set("f

浏览 0提问于2019-06-15得票数 2

回答已采纳

3回答

Apache Livy cURL不工作火花提交命令。

、、、、

我最近开始使用Scala、HDFS、sbt和Livy。目前我试图创建livy batch。 Warning: Skip remote jar hdfs://localhost:9001/jar/project.jar. java.lang.ClassNotFoundException: SimpleApp at java.net.URLClassLoader.findClass(URLClassLoader.java:381) at java.lang.ClassLoader.loadClass(ClassLoader.java:424) at java.lang.ClassLoader.lo

浏览 0提问于2018-06-21得票数 1

1回答

Spark Streaming :通过从一个HDFSdir读取到另一个来将数据写入到HDFS

、、、

我正在尝试使用火花流将数据从一个HDFS位置读取到另一个HDFS位置下面是我在spark-shell上的代码片段但是我看不到在HDFS输出目录上创建的文件，您能否指出如何在HDFS上加载这些文件 scala> sc.stop() scala> import org.apache.spark.SparkConf scala> import org.apache.spark.streaming scala> import org.apache.spark.streaming.{StreamingContext,Seconds} scala&

浏览 12提问于2018-12-21得票数 1

回答已采纳

1回答

将hdfs文件加载到spark上下文中

、、、、

我是新的星火/scala，需要从hdfs加载一个文件来启动。我在hdfs (/newhdfs/abc.txt)中有一个文件，我可以通过使用hdfs dfs -cat /newhdfs/abc.txt查看我的文件内容我这样做是为了将文件加载到星火上下文中。 spark-shell #It entered into scala console window scala> import org.apache.spark._; //Line 1 scala> val conf=new SparkConf().setMaster("local[*]"); scala>

浏览 3提问于2016-09-30得票数 2

回答已采纳

5回答

如何在spark中使用parquet读写相同的文件？

、、

我试图从spark中的一个拼图文件中读取，与另一个rdd进行联合，然后将结果写入我从其中读取的相同文件中(基本上是覆盖)，这会抛出以下错误： couldnt write parquet to file: An error occurred while calling o102.parquet. : org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree: TungstenExchange hashpartitioning(billID#42,200), None +- Union :-

浏览 0提问于2016-05-06得票数 8

1回答

在提交Apache Spark作业时在spark.jars中使用通配符

我有一组JAR，我想要提供给我的Spark作业，存储在HDFS上。 Spark2.3的文档中说spark.jars就是这样的参数： spark.jars: Comma-separated list of jars to include on the driver and executor classpaths. Globs are allowed. 但是，将spark.jars设置为hdfs:///path/to/my/libs/*.jar失败:驱动程序启动正常，启动一个阶段，但随后任务终止，并显示： WARN TaskSetManager: Lost task 0.0 in stage 0.

浏览 0提问于2018-05-08得票数 9

1回答

用于火花的HDFS Config

、、

我想用pyspark从HDFS读取一个文件。守则如下： import numpy as np import pandas as pd from pyspark.sql import SparkSession import json import sys import io import os os.environ["HADOOP_USER_NAME"] = "hdfs" spark = SparkSession.builder.master("local") \ .appName('PySpar

浏览 14提问于2022-05-04得票数 0

1回答

无法从HDFS加载文件的火花数据

、、、

我在本地windows ( HDFS ://localhost:54310)路径/tmp/home/下存储了一个CSV文件。我想从HDFS加载这个文件来触发Dataframe。所以我尝试了 val spark = SparkSession.builder.master(masterName).appName(appName).getOrCreate() 然后 val path = "hdfs://localhost:54310/tmp/home/mycsv.csv" import sparkSession.implicits._ spark.sqlContext.read

浏览 2提问于2016-07-31得票数 2

回答已采纳

1回答

火花错误: I/O错误构建远程块读取器。java.nio.channels.ClosedByInterruptException at java.nio.channels.ClosedByInterruptException

、、、

在单元测试中，执行在本地是正常的，但是当星火流执行被传播到真正的集群执行程序时失败，就像它们静默崩溃一样，并且不再适用于上下文： stream execution thread for kafkaDataGeneratorInactiveESP_02/Distance [id = 438f45a0-acd6-4729-953f-5a18ae208f1f, runId = a98c6d39-fe14-4ed5-b7fe-7e4009de51b2]] impl.BlockReaderFactory (BlockReaderFactory.java:getRemoteBlockReaderFromT

浏览 5提问于2021-11-29得票数 0

回答已采纳

1回答

拼图文件被读取为空

、、、

我正在尝试读取我从我的Jupyter笔记本上的HDFS下载的parquet文件，但是它显示为空。我知道它不是空的，因为我在将它保存到HDFS之前已经处理过它。有人知道为什么它被读为空吗？ HDFS和群集环境中文件的大小： hadoop fs -du -s -h /user/some/test.parquet 1.2 M 3.5 M /user/some/test.parquet val test = spark.read.parquet("hdfs:///user/some/test.parquet") test.count() res0: Long = 10 在Jup

浏览 0提问于2021-06-18得票数 0

1回答

火花结构流失败双到检查点文件找不到

、、

我正在测试env上运行火花结构化流。有时，找不到某个检查点文件的作业失败。其中一个原因可能是卡夫卡的主题保留时间很短。但我已经将.option("failOnDataLoss", "false")添加到SparkSession中了。我对火花检查点有一些基本的(非常基本的)理解。如果删除检查点dir，我认为应该恢复它。但是，正如我测试的那样，一旦发生了这个错误，删除dir就没有帮助了。我需要使用不同的检查点dir来修复它。为什么删除检查点dir不起作用？或者是否有一种方法/选项可以帮助避免此错误？ diagnostics: User class t

浏览 0提问于2018-02-02得票数 8

1回答

MLlib ALS无法删除检查点RDDs错误的文件系统: hdfs://[url]预期: file:///

、、、

我正在使用Spark MLlib的ALS类来训练一个MatrixFactorizationModel。我已经为中间rdd设置了一个用于检查点的HDFS (根据ALS类的建议)。rdds开始保存，但当它再次尝试删除它们时，我得到了一个异常：java.lang.IllegalArgumentException: Wrong FS: hdfs://[url], expected: file:///，这是堆栈跟踪： Exception in thread "main" java.lang.IllegalArgumentException: Wrong FS: hdfs://[url],

浏览 4提问于2015-08-13得票数 0

1回答

从ES中获取数据并保存到HDFS作为Avro (火花)

、、

我对Spark和Scala还不熟悉，所以我有一个非常基本的问题。我有Spark1.5.2和Scala2.10.4。我创建了一个配置，允许我在使用spark-shell命令启动--config时直接从ES中以JSON的形式获取一些数据；我还导入了elasticsearch-hadoop的--jar。一旦我启动了星火，我做了以下几件事： import org.elasticsearch.spark._ val rdd = sc.esRDD("my-index") 如果我做了rdd.getClass，就会得到以下结果： res9: Class[_ <: org.apache.s

浏览 3提问于2017-05-11得票数 0

回答已采纳

1回答

如何为HadoopPartitions计算Spark的默认分区？

、

我正在阅读，关于分区，他说默认情况下，为每个HDFS分区创建一个分区，默认为64 is。我对HDFS并不十分熟悉，但是我遇到了一些复制这条语句的问题。我有一个名为Reviews.csv的文件，它是大约330 of的亚马逊食品评论文本文件。给定默认的64‘d块，我希望使用ceiling(330 / 64) = 6分区。但是，当我将文件加载到我的Shell中时，我得到了9个分区： scala> val tokenized_logs = sc.textFile("Reviews.csv") tokenized_logs: org.apache.spark.rdd.R

浏览 1提问于2018-12-01得票数 1

回答已采纳

5回答

Apache (结构化流)：S3检查点支持

、

根据星星之火结构化流文档：“此检查点位置必须是HDFS兼容的文件系统中的路径，并且可以在启动查询时设置为DataStreamWriter中的选项。” 当然，将检查点设置为s3路径会抛出： 17/01/31 21:23:56 ERROR ApplicationMaster: User class threw exception: java.lang.IllegalArgumentException: Wrong FS: s3://xxxx/fact_checkpoints/metadata, expected: hdfs://xxxx:8020 java.lang.IllegalArgumen

浏览 8提问于2017-02-02得票数 9

回答已采纳

4回答

星星之火SQL SaveMode.Overwrite，获取java.io.FileNotFoundException并要求“刷新表tableName”

、

对于spark，我们应该如何从HDFS中的一个文件夹中获取数据，进行一些修改，并通过覆盖保存模式将更新后的数据保存到HDFS 中的同一个文件夹中，而不需要FileNotFoundException。 import org.apache.spark.sql.{SparkSession,SaveMode} import org.apache.spark.SparkConf val sparkConf: SparkConf = new SparkConf() val sparkSession = SparkSession.builder.config(sparkConf).getOrCreate(

浏览 4提问于2017-03-21得票数 18

2回答

在亚马逊EC2上使用HDFS和Apache Spark

、、、、

我使用spark EC2脚本设置了spark集群。我设置了集群，现在正在尝试将一个文件放到HDFS上，这样我就可以让我的集群工作了。在我的主机上，我有一个data.txt文件。我通过ephemeral-hdfs/bin/hadoop fs -put data.txt /data.txt将其添加到hdfs中。现在，在我的代码中，我有： JavaRDD<String> rdd = sc.textFile("hdfs://data.txt",8); 执行此操作时出现异常： Exception in thread "main" java.net.Unkn

浏览 1提问于2015-06-08得票数 0

1回答

Java spark无法从spark sql中的本地文件系统加载文件

、

我是个新手，在ubuntu 18.0上学习spark和java，没有显式的集群。我将data.csv文件保存在本地文件系统的java/main/resources文件夹中。在执行下面的代码时， SparkSession sparkSession = SparkSession.builder() .appName("sparksql").master("local[*]") .getOrCreate(); Dataset<Row> dataset = sparkSession.read()

浏览 6提问于2020-11-23得票数 2

1回答

用Scala编写HDFS输出文件

、、

我试图使用Scala编写一个HDFS输出文件，并收到以下错误：线程"main“中的异常:在org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:315) at org.apache.spark.util.ClosureCleaner$.org$apache$spark$util$ClosureCleaner$$clean(ClosureCleaner.scala:305) at org.apache.spark.util.ClosureCleaner$.clean(ClosureCl

浏览 4提问于2016-05-13得票数 0

1回答

使用Dataframes处理星火中的数据差(Deltas)

、、、、

浏览 0提问于2019-11-22得票数 0

2回答

在Spark中，如何读取用bucketBy编写的拼花文件，并保存存储的数据？

、、

在ApacheSpark2.4.5中，如何打开一组用bucketBy和saveAsTable编写的拼花文件？例如： case class VeryVeryDeeplyNestedThing( s: String, nested1: OtherVeryDeeplyNestedThing ) case class OtherVeryDeeplyNestedThing ( youGetTheIdeaNoOneWantsToHandWriteASqlStatementForThese: NestedMcNesty ) List(VeryVeryDeeplyNestedThing(...)

浏览 2提问于2020-05-05得票数 3

回答已采纳

1回答

火花- hadoop论点

、、、

我同时运行hadoop和S火星，我想使用来自hdfs的文件作为火花提交的一个参数，所以我在hdfs中创建了一个文件夹--例如。/user/hduser/test/input，我想运行spark提交如下： $SPARK_HOME/bin/spark-submit --master spark://admin:7077 ./target/scala-2.10/test_2.10-1.0.jar hdfs://user/hduser/test/input 但是我做不到，怎么做才是对的呢？我得到的错误是：警告FileInputDStream:查找新文件java.lang.NullPointerE

浏览 2提问于2017-08-09得票数 0

2回答

HDFS上的根划痕dir: /tmp/hive应该是可写火花应用程序错误

、、

我已经创建了一个使用Hive亚稳态的Spark应用程序，但是在创建外部Hive表的过程中，当我执行应用程序(Spark驱动程序日志)时，会得到这样一个错误： Exception in thread "main" org.apache.spark.sql.AnalysisException: java.lang.RuntimeException: java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: rwxrw

浏览 0提问于2019-02-22得票数 3

回答已采纳

2回答

如何在scala代码中实现多线程？

、、、

我是scala的新手，我正在尝试实现一个代码，首先读取文件夹中的文件列表，然后在HDFS中加载每个CSV文件。到目前为止，我正在使用for循环遍历所有CSV文件，但我希望使用多线程来实现这一点，以便每个线程负责每个文件，并对各自的文件执行端到端处理。我目前的实现是： val fileArray: Array[File] = new java.io.File(source).listFiles.filter(_.getName.endsWith(".csv")) for(file<-fileArray){ // reading csv file from s

浏览 6提问于2017-07-13得票数 0

2回答

从s3加载json时出现错误的FS

、、、、

我试图用spark和加载geojson文件，我的加载代码是： val polygons = spark.read.format("magellan").option("type", "geojson").load(inJson) 其中inJson是s3: s3n://bucket-name/geojsons/file.json上的json路径堆栈跟踪错误： 0.3在第0.0阶段(TID 3，ip-172-31-19-102 19 west-1 Compute.Institutor 1)：java.lang.IllegalArgumentExc

浏览 0提问于2017-06-07得票数 0

回答已采纳

1回答

如何通过jupyter笔记本访问头节点hdfs文件

、、、、

我已经建立了一个头节点簇，我成功地将一个jupyter笔记本与它集成。() 我也成功地运行了pyspark.I，为此我引用了这个现在，在运行以下命令时，我希望通过jupyter notebook.But访问头节点中的hdfs文件，该命令从hdfs获取数据。 df = sqlContext.read.json('hdfs:///192.168.21.110/user/hdfs/ML/pass/Teleram_18/notefind/2018-12-14/') 我得到以下错误 An error occurred while calling o29.json. : java.io.

浏览 1提问于2019-01-21得票数 0

1回答

在Kerberized集群中读取Spark应用程序中的HDFS文件

、、、、

我使用Hortonworks数据平台2.5安装了Hadoop集群，其中还包括Ambari 2.4、Kerberos、Spark1.6.2和HDFS。例如，我有以下用户的Kerberos主体和键标签： spark (由Ambari在Kerberos启用期间创建) hdfsuserA (由kadmin -> add_principle创建) 在受保护的集群中运行spark-submit命令需要用户spark-submit，而Spark应用程序必须在hdfsuserA (700)拥有的HDFS目录/user/hdfsuserA/...中打开一些文件。由于我启用了Kerber

浏览 3提问于2016-12-02得票数 3

回答已采纳

3回答

java.io.IOException:不是数据文件

、、

我正在处理一堆avro文件，这些文件存储在HDFS中的嵌套目录结构中。这些文件存储在年份/月/日/小时格式目录结构中。我编写了这个简单的代码来处理 sc.hadoopConfiguration.set("mapreduce.input.fileinputformat.input.dir.recursive","true") val rootDir = "/user/cloudera/rootDir" val rdd1 = sc.newAPIHadoopFile[AvroKey[GenericRecord], NullWritable, Avro

浏览 7提问于2015-11-01得票数 5

回答已采纳

1回答

在map调用中获取Spark上的行

、、、

我尝试从HDFS中的文件中聚合数据。我需要添加一些细节，从这些数据的价值在hbase中的一个特定表。但我有个例外： org.apache.spark.SparkException: Task not serializable at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:166) at org.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:158) at org.apache.s

浏览 11提问于2017-02-02得票数 2

回答已采纳

1回答

Apache束-无法使用hadoop- file -system sdk从S3读取文本文件。

、、、、

我正在尝试使用文件系统v2.0.0和Spark作为运行程序从AWS集群中读取S3。我可以在纱线日志中看到管道能够检测到S3中的文件，但是它无法读取文件。请看下面的日志。 17/06/27 03:29:25 INFO FileBasedSource: Filepattern s3a://xxx/test-folder/* matched 1 files with total size 3410584 17/06/27 03:29:25 INFO FileBasedSource: Matched 1 files for pattern s3a://xxx/test-folder/* 17/06/2

浏览 2提问于2017-06-28得票数 1

1回答

如何从Kafka中读取JSON数据，并使用Spark结构流存储到HDFS？

、、

我正在尝试从Kafka读取JSON消息，并使用spark structured将它们存储在HDFS中。我遵循了示例，当我的代码如下所示时： df = spark \ .read \ .format("kafka") \ .option("kafka.bootstrap.servers", "host1:port1,host2:port2") \ .option("subscribe", "topic1") \ .load() df.selectExpr("CAST(key AS STR

浏览 43提问于2018-07-25得票数 1

2回答

星火流异常: java.util.NoSuchElementException: None.get

、、、、

我通过将SparkStreaming数据转换为数据格式将其写入HDFS：码 object KafkaSparkHdfs { val sparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkKafka") sparkConf.set("spark.driver.allowMultipleContexts", "true"); val sc = new SparkContext(sparkConf) def main(args: Arr

浏览 0提问于2018-06-22得票数 5

回答已采纳

1回答

临时表上的多个SQL失败

、、

Spark Version: 1.6.2. 我注册了一个临时表，其数据源为HDFS，并对其进行了两次查询。然后作业因此错误而失败：错误ApplicationMaster: User类抛出异常： java.io.IOException:不是文件: hdfs://my_server:8020/2017/01/01 不是文件: hdfs://my_server:8020/2017/01/01在org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:322) at org.apache.spark.rd

浏览 1提问于2017-06-30得票数 2

1回答

如何修复‘scala.collection.immutable.$colon$colon.hd$1()Ljava/lang/Object’：java.lang.NoSuchMethodError‘

、、

因此，我开始编写自己的Oozie工作流，其中包含Apache操作，事情是，尽管我清楚地使用Scala2.11.8和Spark2.3.0打包了我的源代码，但这条消息说 scala.collection.immutable.$colon$colon.hd$1()Ljava/lang/Object；： java.lang.NoSuchMethodError 有一个包含Hortonworks沙箱的码头容器，运行在ec2机器上，有16个核心cpu和41个内存。我已经使用命令行更新了Oozie共享库。下面是我的job.properties文件和workflow.xml文件。 job.properties

浏览 12提问于2019-10-18得票数 1

1回答

如何监视火花流任务中的多个目录

、

我希望在火花流中使用fileStream来监视多个hdfs目录，例如： val list_join_action_stream = ssc.fileStream[LongWritable, Text, TextInputFormat]("/user/root/*/*", check_valid_file(_), false).map(_._2.toString).print 买的方式，我不能在三个类别的含义: LongWritable，文本，TextInputFormat 但不管用..。 java.io.FileNotFoundException: File /user/roo

浏览 1提问于2015-05-13得票数 0

3回答

使用大量数据集时，性能会非常慢

、

我在HDFS中有一个小的拼图文件(7.67MB)，用snappy压缩。该文件有1,300行和10500列，均为双精度值。当我从拼图文件创建一个数据框并执行一个简单的操作，如计数，它需要18秒。 scala> val df = spark.read.format("parquet").load("/path/to/parquet/file") df: org.apache.spark.sql.DataFrame = [column0_0: double, column1_1: double ... 10498 more fields] scala>

浏览 4提问于2018-09-12得票数 2

1回答

如何使并发与写入蜂窝表的数据文件一起工作？

、、、、

我在Spark1.6上有多个线程在同一个蜂箱表中写入(使用拼花文件)，当它们试图同时写入时，会在将文件重命名为HDFS的过程中提示一个错误。我正在寻找一个解决方案来绕过这个已知的火花问题。 class MyThread extends Runnable { def run { //some code myTable.write.format("parquet").mode("append") .saveAsTable("hdfstable")

浏览 2提问于2018-12-28得票数 2

1回答

优化Scala作业-许多任务，嵌套映射花费小时，XML分析

、、、

我在火花壳中运行一个火花作业，它已经执行了将近80+小时，而且必须有一些方法来扩展它。下面是我在启动作业时提交的配置和正在运行的代码。 spark-shell --master \ yarn \ --num-executors 100 \ --name cde_test \ --executor-cores 4 \ --executor-memory 5g \ --driver-cores 2 \ --driver-memory 3g \ --jars ./spark_jars/spark-xml_2.11-0.8.0.jar \ --verbose 以下是资源管理器UI工具上执行器信息的图片

浏览 2提问于2020-03-01得票数 0

回答已采纳

2回答

在Hadoop中使用HBase代替Hive的目的

、、、

在我的项目中，我们使用Hadoop 2、Spark、Scala。Scala是编程语言，Spark在这里用于分析。我们同时使用Hive和HBase。我可以使用HDFS访问Hive的所有细节，如文件等。但我的困惑是- 当我能够使用Hive**，执行所有任务时，为什么需要** HBase 来存储数据。这不是一种开销吗？ HIVE 和 HBase**?**的功能是什么？如果我们只使用Hive，那么问题应该是什么呢？有谁能告诉我。

浏览 2提问于2016-12-29得票数 4

回答已采纳

2回答

丝上的星火是如何处理文件的？

我正在使用Yarn在Spark中执行一个过滤器，并接收以下错误。任何帮助都很感激，但我的主要问题是为什么找不到文件。 /hdata/10/yarn/nm/usercache/spettinato/appcache/application_1428497227446_131967/spark-local-20150708124954-aa00/05/merged_shuffle_1_343_1 它似乎无法找到一个文件，已存储到HDFS后，被洗牌。为什么星火访问目录"/hdata/"？这个目录不存在于HDFS中，它应该是本地目录还是HDFS目录？我可以配置存储混叠数据的位置吗？

浏览 3提问于2015-07-08得票数 10

回答已采纳

1回答

如何将HDFS中承载的配置文件传递给Spark应用程序？

、、、、

我在处理星火结构的流媒体。另外，我还在与Scala合作。我想将配置文件传递给我的spark应用程序。此配置文件托管在HDFS中。例如； spark_job.conf (HOCON) spark { appName: "", master: "", shuffle.size: 4 etc.. } kafkaSource { servers: "", topic: "", etc.. } redisSink { host: "", port: 999, timeout: 2

浏览 1提问于2019-05-07得票数 1

回答已采纳

1回答

用于加载RDD或捕获错误并创建RDD的Scala代码模式？

、

我想要加载RDD，或者，如果失败，创建RDD。我认为下面的代码可以工作，但是即使sc.textFile()在try块中，它仍然失败。我遗漏了什么，或者我如何正确地做到这一点？谢谢! // look for my RDD, load or make it val rdddump = "hdfs://localhost/Users/data/hdfs/namenode/myRDD.txt" val myRdd = try { sc.textFile(rdddump) } catch { case _ : Throwable => { println("

浏览 1提问于2014-08-14得票数 0

1回答

当使用ApacheCommonsLang3 SerializationUtils.deserialize时，java.lang.ClassNotFoundException

、、、

我在代码中使用ApacheCommonsLang3的SerializationUtils。 SerializationUtils.serialize() 将自定义的类作为文件存储到磁盘和 SerializationUtils.deserialize(byte[]) 再恢复一次。在本地环境(Mac )中，所有序列化文件都可以正常反序列化，不会发生错误。但是，当我将这些序列化的文件复制到HDFS中，并使用Spark/Scala从HDFS中读取它们时，就会发生SerializeException。版本是： <dependency> <groupId>

浏览 3提问于2019-06-26得票数 0

3回答

使用Spark列出Hadoop HDFS目录中的所有文件？

、、

我想遍历Hadoop目录中的所有文本文件，并计算单词"error“的所有出现次数。有没有办法使用Apache Spark Scala API创建一个hadoop fs -ls /users/ubuntu/来列出目录中的所有文件？从给定的来看，spark上下文似乎只能通过以下内容单独访问文件： val file = spark.textFile("hdfs://target_load_file.txt") 在我的问题中，我事先不知道HDFS文件夹中的文件数量和名称。查看了，但找不到这种功能。

浏览 1提问于2014-04-29得票数 15

回答已采纳

2回答

结构化流传输将Parquet文件写入Hadoop

、

我能够将结构化流式传输的结果写入到拼图文件中。问题是这些文件在本地文件系统中，现在我想将它们写入Hadoop文件系统。有没有办法做到这一点？ StreamingQuery query = result //.orderBy("window") .repartition(1) .writeStream() .outputMode(OutputMode.Append()) .format("parquet") .option("checkp

浏览 9提问于2017-03-01得票数 1

回答已采纳

1回答

即使工作节点上不需要库，导入错误也会引发。

、、

浏览 4提问于2019-04-26得票数 0

回答已采纳

1回答

由于较长的RDD沿袭而导致的堆栈溢出

、、

我在HDFS中有数千个小文件。需要处理一个稍微小一点的文件子集(同样是以千为单位)，fileList包含需要处理的文件列表。 // fileList == list of filepaths in HDFS var masterRDD: org.apache.spark.rdd.RDD[(String, String)] = sparkContext.emptyRDD for (i <- 0 to fileList.size() - 1) { val filePath = fileStatus.get(i) val fileRDD = sparkContext.textFile(f

浏览 0提问于2015-12-25得票数 18

回答已采纳

2回答

如何添加位于HDFS上的typesafe配置文件以激发提交(集群模式)？

、、、

我有一个Spark (Spark1.5.2)应用程序，它将数据从Kafka流到HDFS。我的应用程序包含两个Typesafe配置文件来配置某些东西，比如Kafka主题等等。现在我想使用星星之交(集群模式)在集群中运行我的应用程序。我的项目的所有依赖项的jar文件都存储在HDFS上。只要我的配置文件包含在jar文件中，一切都能正常工作。但对于测试目的来说，这是不切实际的，因为我总是必须重新构建jar。因此，我排除了项目的配置文件，并通过“驱动程序类路径”添加了它们。这在客户端模式下有效，但是如果我现在将配置文件移动到HDFS，并以集群模式运行我的应用程序，则无法找到设置。下面你可以找到我的火

浏览 3提问于2016-02-19得票数 5

回答已采纳

1回答

Spark HistoryServer未出现

、、、、

重启Spark HistoryServer失败，我们使用的是CDH 5.3.1，Spark 1.2我检查了Spark HistoryServer的日志，发现如下信息： 2015-05-21 11:38:03,790 WARN org.apache.spark.scheduler.ReplayListenerBus: Log path provided contains no log files. 2015-05-21 11:38:52,319 INFO org.apache.spark.deploy.history.HistoryServer: Registered signal hand

浏览 1提问于2015-05-22得票数 1