腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(2716)
视频
沙龙
1
回答
Spark
Streaming
:
通过
从一
个
HDFSdir
读
取到
另一个
来
将
数据
写入
到
HDFS
、
、
、
我正在尝试使用火花流
将
数据
从一
个
HDFS
位置读
取到
另一个
HDFS
位置 下面是我在
spark
-shell上的代码片段 但是我看不到在
HDFS
输出目录上创建的文件,您能否指出如何在
HDFS
上加载这些文件scala> sc.stop() scala> import org.ap
浏览 12
提问于2018-12-21
得票数 1
回答已采纳
2
回答
Spark
连接Hive
到
HDFS
vs
Spark
直接连接
HDFS
,Hive在上面吗?
、
、
、
、
问题摘要:当然,我希望使用配置单元上下文
将
浏览 0
提问于2019-06-19
得票数 1
3
回答
如何在不使用repartition和copyMerge的情况下合并
spark
结果文件?
、
、
我可以使用FileUtil.copyMerge(),但它真的很慢,它下载所有的文件
到
驱动程序,然后上传到hadoop.但是FileUtil.copyMerge()比:如何在不使用repartition和FileUtil.copyMerge()的情况下合并
spark
浏览 0
提问于2015-03-13
得票数 7
回答已采纳
1
回答
Spark
作为Mapreduce的存储层
、
、
、
、
我正面临着一
个
独特的问题,并希望您的意见在这里。 我有一
个
遗留的map-reduce应用程序,其中多个map-reduce作业顺序运行,中间
数据
来回
写入
HDFS
。由于中间
数据
写入
HDFS
,具有小
数据
的作业从
HDFS
的功能中损失大于收益,并且比非Hadoop等效物所花费的时间要长得多。在这个方向上,我正在考虑使用
Spark
作为存储层,map-reduce作业
将
通过
<
浏览 0
提问于2016-12-11
得票数 0
2
回答
spark
的随机
读
和随机写之间的区别是什么?
、
我需要运行一
个
有大量
数据
的
spark
程序。我正在尝试优化
spark
程序,并
通过
spark
UI工作,试图减少Shuffle部分。我在互联网上搜索过,但找不到关于它们的具体细节,所以想看看是否有人可以在这里解释它们。
浏览 3
提问于2016-03-06
得票数 13
1
回答
在多次迭代中使用
Spark
RDD
、
、
、
我是
Spark
的新手,如果这个问题太基本了,请原谅。我有一
个
实时场景,其中
数据
被连续推送到队列中,并且需要对这些
数据
运行分析。
Spark
从队列分析中提取这些
数据
是多阶段的,RDD
通过
每个阶段的中间更新一次又一次地迭代,最后我们得到一些映射,这些映射在RDD本身中更新。分析需要每n分钟重复一次,它应该处理RDD +新
数据
的前一
个
最终状态。这些作业始终按顺序运行,在前一
个
作业完成之前,下一
个
作业永远不会
浏览 1
提问于2017-11-17
得票数 0
1
回答
火花结构化流检查点在生产中的使用
、
、
、
、
当使用
Spark
结构化流时,我难以理解检查点是如何工作的。
将
已连接的DataFrame
写入
HBase表。在每次运行此代码时,我都希望只从流中
浏览 7
提问于2020-07-08
得票数 3
1
回答
按yy/mm/dd分区后的
Spark
df分区
、
、
S3托管一
个
非常大的压缩文件(20 S3压缩-> 200 S3未压缩)。整个文件将由同一日期的
数据
组成。这让我相信,我应该
将
"year={year}/month={month}/day={day}/"附加到s3路径中,而不是使用partitionBy('year','month','day'),因为目前
spark
一次只向s3
写入
一
个
文件(每个文件1 1gb)。write\
浏览 13
提问于2020-01-18
得票数 0
回答已采纳
2
回答
当多个MapReduce作业链接在一起时,是否
将
每个作业的输出
写入
HDFS
?
、
、
. -> MapN-ReduceN 是否
将
每个MapReduce作业的输出
写入
HDFS
?例如,Map1-Reduce1的输出是否会
写入
HDFS
?并且在Map2-Reduce2中的任务失败的情况下,可以
通过
读取已经在
HDFS
中的Map1-Reduce1的输出来重新启动Map2-Reduce2。
浏览 1
提问于2016-10-25
得票数 0
1
回答
Spark
Structured
Streaming
-是否可以
将
偏移量
写入
两次
、
、
、
、
我正在使用
spark
structured
streaming
来
消费kafka主题中的
数据
,并将
数据
写入
另一个
kafka接收器。 我想存储两次偏移量-从主题读取时存储一次,并搅动偏移量。其次-当
将
数据
写入
输出接收器并
写入
偏移时,这可以
通过
给出检查点目录位置
来
实现, 是否可以
写入
订阅topic时消耗的偏移量。
浏览 13
提问于2020-03-31
得票数 0
1
回答
如何使用
spark
和ElasticSearch从/
写入
不同的elasticsearch集群?
、
、
、
、
有时,我希望
将
整个
数据
集群提取出来,处理每个文档,并将它们放到不同的Elasticsearch (ES)集群中(是的,
数据
迁移也是这样)。目前,无法
将
ES
数据
从集群中读
取到
RDD中,并使用
spark
+ elasticsearch-hadoop
将
RDD
写入
另一个
RDD中,因为这将涉及从RDD中交换SparkContext。因此,我想将RDD
写入
对象文件,然后再将它们读入具有不同SparkContex
浏览 9
提问于2015-03-12
得票数 6
回答已采纳
1
回答
为什么
Spark
总是将相同数量的文件
写入
HDFS
?
、
、
我有一
个
用Scala编写的
Spark
流媒体应用程序,在CDH中运行。应用程序从Kafka读取
数据
并将
数据
写入
HDFS
。在
将
数据
写入
HDFS
之前,我执行了partitionBy,因此
数据
是分区
写入
的。每个分区在
写入
时都会得到3
个
文件。我还使用coalesce
来
控制
数据
的分区数量。我尝试使用3
个
执
浏览 0
提问于2018-09-18
得票数 1
1
回答
带自定义接收器的
Spark
Streaming
在所有用例中都是Flume的更通用的替代品吗?
、
、
、
、
我们的用例是(1)使用来自ActiveMQ的
数据
,(2)
通过
通用的可重用流过程执行转换,然后(3)发布
到
Kafka。在我们的例子中,第(2)步将是一
个
可重用的
Spark
Streaming
‘服务’,它将提供一
个
event_source_id,用元
数据
丰富每条记录,然后发布
到
Kafka。我看到的最直接的方法是ActiveMQ -> Flume ->
Spark
Streaming
->
浏览 0
提问于2015-04-06
得票数 0
1
回答
了解hbase如何使用
hdfs
、
、
我试图了解hbase是如何使用
hdfs
的。以下是我所理解的(如果我错了,请纠正我): 我知道hbase使用
hdfs
存储
数据
,
数据
被分割成区域,每个区域服务器服务于多个区域,因此我猜想一
个
区域(独占)可以与多个
数据
节点通信以获取和放置
数据
,因此如果这是正确的,那么如果该区域服务器失败,那么存储在该
数据
节点中的
数据
将
无法再访问。
浏览 3
提问于2016-10-04
得票数 1
回答已采纳
2
回答
SBT测试任务如何管理类路径以及如何从SBT测试正确启动Java进程
、
、
、
、
在我的一
个
Scala测试中,我使用ProcessBuilder在不同的JVM中启动了3
个
Apache
Spark
流应用程序。(两
个
或多个
Spark
streaming
应用程序不能在同一JVM中共存。)一
个
Spark
应用程序处理
数据
并将其摄
取到
Apache Kafka中,
另一个
应用程序读取这些
数据
。此外,该测试还涉及
到
写入
NoSQL
数据</
浏览 3
提问于2018-04-24
得票数 8
2
回答
如何在不在pyspark中创建文件夹的情况下
写入
CSV文件?
、
、
、
在
写入
CSV文件时,自动创建文件夹,然后创建具有隐名的csv文件,如何在pyspark中创建具有任何特定名称的CSV,而不是在pandas中创建文件夹。
浏览 7
提问于2021-11-09
得票数 0
1
回答
配置单元-复制带有分区的
数据
库架构,并在
另一个
配置单元实例中重新创建
、
、
、
、
我已经
将
一
个
数据
库的
数据
和文件夹结构
从一
个
HDFS
实例复制
到
另一个
HDFS
实例。 如何对配置单元元
数据
执行相同的操作?我需要新的
HDFS
实例的hive使用它们现有的分区
来
定义这个
数据
库和它的表,就像它在原始位置一样。当然,它们通常需要随着
hdfs
外部表位置的更新而维护其原始模式。乐于使用直接的hive命令、
spark</
浏览 16
提问于2019-05-15
得票数 1
回答已采纳
3
回答
如何在两
个
Spark
上下文之间共享
Spark
RDD?
、
我有一
个
RMI集群。每个RMI服务器都有一
个
Spark
上下文。有没有办法在不同的
Spark
上下文之间共享RDD?
浏览 1
提问于2015-01-13
得票数 8
4
回答
Hadoop是否为输入文件创建多个副本,每个节点一
个
副本
、
如果我希望
将
文件从本地目录复制
到
HDFS
,是否需要在每个Hadoop节点上物理复制该文件?或者,如果我使用hadoop dfs命令,Hadoop将在每个节点上内部创建此文件的副本?假设每个节点都需要一
个
文件副本,对吗?
浏览 1
提问于2015-09-13
得票数 1
1
回答
如何
将
一
个
数据
帧拆分成不同的df,需要保存在不同的文件中?
、
var df = sparkSession.read .option("header", true) // Use first line of all files as header .option("inferSchema", "true") // Automatically infer data types
浏览 17
提问于2019-11-30
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark Streaming 中管理 Kafka Offsets 的几种方式
Spark 2.4 原生支持了avro,别再引用第三方库了
Spark Streaming与Kafka如何保证数据零丢失
SparkStreaming&Kafka——Receiver方式
走进大数据 Spark-Spark streaming
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券