Spark Streaming :通过从一个HDFSdir读取到另一个来将数据写入到HDFS

、、、

我正在尝试使用火花流将数据从一个HDFS位置读取到另一个HDFS位置下面是我在spark-shell上的代码片段但是我看不到在HDFS输出目录上创建的文件，您能否指出如何在HDFS上加载这些文件scala> sc.stop() scala> import org.ap

浏览 12提问于2018-12-21得票数 1

回答已采纳

2回答

Spark连接Hive到HDFS vs Spark直接连接HDFS，Hive在上面吗？

、、、、

问题摘要：当然，我希望使用配置单元上下文将

浏览 0提问于2019-06-19得票数 1

3回答

如何在不使用repartition和copyMerge的情况下合并spark结果文件？

、、

我可以使用FileUtil.copyMerge()，但它真的很慢，它下载所有的文件到驱动程序，然后上传到hadoop.但是FileUtil.copyMerge()比：如何在不使用repartition和FileUtil.copyMerge()的情况下合并spark

浏览 0提问于2015-03-13得票数 7

回答已采纳

1回答

Spark作为Mapreduce的存储层

、、、、

我正面临着一个独特的问题，并希望您的意见在这里。我有一个遗留的map-reduce应用程序，其中多个map-reduce作业顺序运行，中间数据来回写入HDFS。由于中间数据写入HDFS，具有小数据的作业从HDFS的功能中损失大于收益，并且比非Hadoop等效物所花费的时间要长得多。在这个方向上，我正在考虑使用Spark作为存储层，map-reduce作业将通过<

浏览 0提问于2016-12-11得票数 0

2回答

spark的随机读和随机写之间的区别是什么？

、

我需要运行一个有大量数据的spark程序。我正在尝试优化spark程序，并通过spark UI工作，试图减少Shuffle部分。我在互联网上搜索过，但找不到关于它们的具体细节，所以想看看是否有人可以在这里解释它们。

浏览 3提问于2016-03-06得票数 13

1回答

我是Spark的新手，如果这个问题太基本了，请原谅。我有一个实时场景，其中数据被连续推送到队列中，并且需要对这些数据运行分析。Spark从队列分析中提取这些数据是多阶段的，RDD通过每个阶段的中间更新一次又一次地迭代，最后我们得到一些映射，这些映射在RDD本身中更新。分析需要每n分钟重复一次，它应该处理RDD +新数据的前一个最终状态。这些作业始终按顺序运行，在前一个作业完成之前，下一个作业永远不会

浏览 1提问于2017-11-17得票数 0

1回答

火花结构化流检查点在生产中的使用

、、、、

当使用Spark结构化流时，我难以理解检查点是如何工作的。将已连接的DataFrame写入HBase表。在每次运行此代码时，我都希望只从流中

浏览 7提问于2020-07-08得票数 3

1回答

按yy/mm/dd分区后的Spark* df分区*

、、

S3托管一个非常大的压缩文件(20 S3压缩-> 200 S3未压缩)。整个文件将由同一日期的数据组成。这让我相信，我应该将"year={year}/month={month}/day={day}/"附加到s3路径中，而不是使用partitionBy('year','month','day')，因为目前spark一次只向s3写入一个文件(每个文件1 1gb)。write\

浏览 13提问于2020-01-18得票数 0

回答已采纳

2回答

当多个MapReduce作业链接在一起时，是否将每个作业的输出写入HDFS？

、、

. -> MapN-ReduceN 是否将每个MapReduce作业的输出写入HDFS？例如，Map1-Reduce1的输出是否会写入HDFS？并且在Map2-Reduce2中的任务失败的情况下，可以通过读取已经在HDFS中的Map1-Reduce1的输出来重新启动Map2-Reduce2。

浏览 1提问于2016-10-25得票数 0

1回答

Spark Structured Streaming-是否可以将偏移量写入两次

、、、、

我正在使用spark structured streaming来消费kafka主题中的数据，并将数据写入另一个kafka接收器。我想存储两次偏移量-从主题读取时存储一次，并搅动偏移量。其次-当将数据写入输出接收器并写入偏移时，这可以通过给出检查点目录位置来实现，是否可以写入订阅topic时消耗的偏移量。

浏览 13提问于2020-03-31得票数 0

1回答

如何使用spark和ElasticSearch从/写入不同的elasticsearch集群？

、、、、

有时，我希望将整个数据集群提取出来，处理每个文档，并将它们放到不同的Elasticsearch (ES)集群中(是的，数据迁移也是这样)。目前，无法将ES数据从集群中读取到RDD中，并使用spark + elasticsearch-hadoop将RDD写入另一个RDD中，因为这将涉及从RDD中交换SparkContext。因此，我想将RDD写入对象文件，然后再将它们读入具有不同SparkContex

浏览 9提问于2015-03-12得票数 6

回答已采纳

1回答

为什么Spark总是将相同数量的文件写入HDFS？

、、

我有一个用Scala编写的Spark流媒体应用程序，在CDH中运行。应用程序从Kafka读取数据并将数据写入HDFS。在将数据写入HDFS之前，我执行了partitionBy，因此数据是分区写入的。每个分区在写入时都会得到3个文件。我还使用coalesce来控制数据的分区数量。我尝试使用3个执

浏览 0提问于2018-09-18得票数 1

1回答

带自定义接收器的Spark* Streaming在所有用例中都是Flume的更通用的替代品吗？*

、、、、

我们的用例是(1)使用来自ActiveMQ的数据，(2)通过通用的可重用流过程执行转换，然后(3)发布到Kafka。在我们的例子中，第(2)步将是一个可重用的Spark Streaming‘服务’，它将提供一个event_source_id，用元数据丰富每条记录，然后发布到Kafka。我看到的最直接的方法是ActiveMQ -> Flume -> Spark Streaming ->

浏览 0提问于2015-04-06得票数 0

1回答

了解hbase如何使用hdfs

、、

我试图了解hbase是如何使用hdfs的。以下是我所理解的(如果我错了，请纠正我)：我知道hbase使用hdfs存储数据，数据被分割成区域，每个区域服务器服务于多个区域，因此我猜想一个区域(独占)可以与多个数据节点通信以获取和放置数据，因此如果这是正确的，那么如果该区域服务器失败，那么存储在该数据节点中的数据将无法再访问。

浏览 3提问于2016-10-04得票数 1

回答已采纳

2回答

SBT测试任务如何管理类路径以及如何从SBT测试正确启动Java进程

、、、、

在我的一个Scala测试中，我使用ProcessBuilder在不同的JVM中启动了3个Apache Spark流应用程序。(两个或多个Spark streaming应用程序不能在同一JVM中共存。)一个Spark应用程序处理数据并将其摄取到Apache Kafka中，另一个应用程序读取这些数据。此外，该测试还涉及到写入NoSQL数据</

浏览 3提问于2018-04-24得票数 8

2回答

如何在不在pyspark中创建文件夹的情况下写入CSV文件？

、、、

在写入CSV文件时，自动创建文件夹，然后创建具有隐名的csv文件，如何在pyspark中创建具有任何特定名称的CSV，而不是在pandas中创建文件夹。

浏览 7提问于2021-11-09得票数 0

1回答

配置单元-复制带有分区的数据库架构，并在另一个配置单元实例中重新创建

、、、、

我已经将一个数据库的数据和文件夹结构从一个HDFS实例复制到另一个HDFS实例。如何对配置单元元数据执行相同的操作？我需要新的HDFS实例的hive使用它们现有的分区来定义这个数据库和它的表，就像它在原始位置一样。当然，它们通常需要随着hdfs外部表位置的更新而维护其原始模式。乐于使用直接的hive命令、spark</

浏览 16提问于2019-05-15得票数 1

回答已采纳

3回答

如何在两个Spark上下文之间共享Spark* RDD？*

、

我有一个RMI集群。每个RMI服务器都有一个Spark上下文。有没有办法在不同的Spark上下文之间共享RDD？

浏览 1提问于2015-01-13得票数 8

4回答

Hadoop是否为输入文件创建多个副本，每个节点一个副本

、

如果我希望将文件从本地目录复制到HDFS，是否需要在每个Hadoop节点上物理复制该文件？或者，如果我使用hadoop dfs命令，Hadoop将在每个节点上内部创建此文件的副本？假设每个节点都需要一个文件副本，对吗？

浏览 1提问于2015-09-13得票数 1

1回答

如何将一个数据帧拆分成不同的df，需要保存在不同的文件中？

、

var df = sparkSession.read .option("header", true) // Use first line of all files as header .option("inferSchema", "true") // Automatically infer data types

浏览 17提问于2019-11-30得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark连接Hive到HDFS vs Spark直接连接HDFS，Hive在上面吗？

如何在不使用repartition和copyMerge的情况下合并spark结果文件？

Spark作为Mapreduce的存储层

spark的随机读和随机写之间的区别是什么？

在多次迭代中使用Spark* RDD*

火花结构化流检查点在生产中的使用

按yy/mm/dd分区后的Spark* df分区*

当多个MapReduce作业链接在一起时，是否将每个作业的输出写入HDFS？

Spark Structured Streaming-是否可以将偏移量写入两次

如何使用spark和ElasticSearch从/写入不同的elasticsearch集群？

为什么Spark总是将相同数量的文件写入HDFS？

带自定义接收器的Spark* Streaming在所有用例中都是Flume的更通用的替代品吗？*

了解hbase如何使用hdfs

SBT测试任务如何管理类路径以及如何从SBT测试正确启动Java进程

如何在不在pyspark中创建文件夹的情况下写入CSV文件？

配置单元-复制带有分区的数据库架构，并在另一个配置单元实例中重新创建

如何在两个Spark上下文之间共享Spark* RDD？*

Hadoop是否为输入文件创建多个副本，每个节点一个副本

如何将一个数据帧拆分成不同的df，需要保存在不同的文件中？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐