腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
saveAsNewAPIHadoopFile
spark
scala
将
文件
保
存在
同一
目录
中
、
、
、
我正在
使用
火花流,我想将每一批火花流保
存在
我的本地Avro格式。我已经
使用
saveAsNewAPIHadoopFile
将
数据保存为Avro格式。这样做效果很好。但它会覆盖现有
文件
。下一批数据
将
覆盖旧数据。有没有办法
将
Avro
文件
保
存在
通用
目录
中
?我尝试添加Hadoop job conf的一些属性,以便在
文件
名
中
添加前缀。但不能处理任何属性。dst
浏览 110
提问于2019-06-21
得票数 2
1
回答
提交:
使用
火花提交的ship jar依赖关系
、
、
、
和org.elasticsearch.hadoop.mr.LinkedMapWritable类的elasticsearch-hadoop jar
文件
,然后
使用
--jars参数运行我的工作,我可以看到文档出现在我的elasticsearch集群
中
。(PythonRDD.
scala
:609)
浏览 5
提问于2015-04-03
得票数 4
回答已采纳
1
回答
将
RDD保存为Avro
文件
、
我已经编写了这个示例程序来
将
RDD持久化到avro
文件
中
。我
使用
的是CDH 5.4和
Spark
1.3{"namespace": "com.abhi", "name{AvroKeyOutputFormat, AvroJob, 当我
将
代码提交到ha
浏览 0
提问于2015-11-02
得票数 0
1
回答
Spark
saveAsNewAPIHadoopFile
可在本地模式下工作,但不能在群集模式下工作
、
、
、
在升级到CDH5.4和
Spark
streaming 1.3后,我遇到了一个奇怪的问题,
saveAsNewAPIHadoopFile
不再像它应该的那样
将
文件
保存到HDFS。我可以看到正在生成_temp
目录
,但是当保存完成时,_temp将被删除,只留下一个包含成功
文件
的空
目录
。我有一种感觉,这些
文件
是生成的,但后来,在删除_temp之前,它们无法从_temp
目录
中
移出。只有在
Spark
Cluster
浏览 6
提问于2015-06-17
得票数 3
2
回答
使用
saveAsNewAPIHadoopFile
时
文件
被覆盖
、
我们
使用
Spark
1.4进行
Spark
流媒体。Kafka是
Spark
Stream的数据源。 记录每秒都会在Kafka上发布。我们的要求是每分钟
将
Kafka上发布的记录存储在一个
文件
夹
中
。流
将
每五秒读取一次记录。例如,在1200PM和1201PM期间发布的记录存储在
文件
夹“1200”
中
;1201PM和1202PM之间的记录存储在
文件
夹"1201“
中
,依此类推。, Str
浏览 0
提问于2016-03-23
得票数 1
1
回答
_
spark
_metadata引发问题
、
、
我在
Scala
中
使用
Spark
,我有一个
目录
,其中有多个
文件
。 在这个
目录
中
,我有由
Spark
生成的Parquet
文件
和由
Spark
流生成的其他
文件
。而星光流生成一个
目录
_
spark
_metadata。我面临的问题是,当我
使用
Spark
(sparksession.read.load)读取
目录
时,它只读取由<e
浏览 0
提问于2018-11-26
得票数 2
2
回答
丝上的星火是
如何
处理
文件
的?
我正在
使用
Yarn在
Spark
中
执行一个过滤器,并接收以下错误。任何帮助都很感激,但我的主要问题是为什么找不到
文件
。-aa00/05/merged_shuffle_1_343_1我可以配
浏览 3
提问于2015-07-08
得票数 10
回答已采纳
2
回答
分解火花列
、
、
通过分解,我意味着创建列
中
每个唯一值到
同一
个ID的映射。例如,原始数据
文件
:| col1| col2|1473513432|4060600988513370| A|到
保
理版本
中
,这是相当简单的,但是由于
Spark
在节
浏览 0
提问于2016-09-28
得票数 2
回答已采纳
1
回答
为什么我不能在EMR上用打开本地
文件
、
、
、
我在工作时
使用
AWS电子病历。如果启动星火外壳,我可以运行
scala
命令,但不能在本地
文件
中
读取。例如:org.apache.
spark
.sql.AnalysisException: Pathdoes not exist: hdfs://ip-10-99-99-99.ec2.internal:8020/u
浏览 1
提问于2020-01-09
得票数 0
回答已采纳
1
回答
如何
仅针对一个作业
使用
SBT构建
、
、
、
我正在尝试建立一个单一的
spark
scala
作业。据我所知,应该
使用
spark
目录
中
的<sbt assembly>命令来完成,但是
使用
此方法
将
构建那里
存在
的所有作业。有没有办法一次构建一个特定的
文件
?
浏览 0
提问于2016-01-27
得票数 0
1
回答
Spark
Streaming :通过从一个HDFSdir读取到另一个来
将
数据写入到HDFS
、
、
、
我正在尝试
使用
火花流
将
数据从一个HDFS位置读取到另一个HDFS位置 下面是我在
spark
-shell上的代码片段 但是我看不到在HDFS输出
目录
上创建的
文件
,您能否指出
如何
在HDFS上加载这些
文件
scala
> sc.stop()
scala
> import org.apache.
浏览 12
提问于2018-12-21
得票数 1
回答已采纳
4
回答
如何
在
spark
中
检查路径是否
存在
?
、
、
我的datetime路径如下:/data/2020-04-02/data.csv 有几天,
文件
可能不
存在
,如果我调用
spark
.read.load(
浏览 0
提问于2020-07-15
得票数 1
2
回答
如何
将
文件
从一个S3桶
目录
移动到
同一
个桶
中
的另一个
目录
?
Scala
/Java
、
、
、
我希望
使用
scala
将
s3桶
中
某个
目录
下的所有
文件
移动到
同一
个桶
中
的另一个
目录
中
。以下是我所拥有的: val sourcePath = new Pathval destPath = new Path("s3a:/path-to-destinati
浏览 18
提问于2022-06-06
得票数 2
2
回答
在应用程序之间共享
Spark
表
、
、
在驱动程序
中
,我
使用
Spark
将从Twitter流中提取的一些数据保
存在
表
中
。我不
使用
Hive,所以它被保存到
spark
-warehouse
目录
中
。然后我尝试通过
spark
-shell访问它,但是sql()命令无法访问该表(它甚至没有在sqlContext.tables
中
列出)。由驱动器程序和星火壳创建的表都保
存在
同一
个
文件
夹
中
浏览 3
提问于2017-01-23
得票数 2
1
回答
使用
spark
/
scala
将
文件
从子
目录
复制到hdfs
中
的基
目录
、
、
、
、
每次作业运行时,我都会在hdfs基本
目录
下创建
文件
夹。每个
文件
夹下都有.dat
文件
。例如。基
目录
:- /user/srav/子
目录
:- /user/srav/20190101 /user/srav/201
浏览 0
提问于2019-10-30
得票数 0
1
回答
如何
使用
星火创建MapFile并访问它?
、
、
、
下一步是访问
文件
。
使用
创建parts的
目录
名失败,说明它找不到data
文件
。因此,我研究了HashPartitioner的重要性,并发现它在内部
使用
它来识别要
使用
的读取器,但是
Spark
似乎没有
使用
相同的分区逻辑。所以我修改为: rdd.partitionBy(new org.apache.
spark
.HashPartitioner(128)).sortByKey().
saveAsNewAPIHadoopFile
我<
浏览 5
提问于2015-04-18
得票数 3
回答已采纳
1
回答
在
spark
中
尝试以avro格式保存
文件
时获取ClassCastException
、
、
我正在尝试处理一个
文件
,然后
使用
saveAsNewAPIHadoopFile
方法将其保存为avro
文件
格式。$anonfun$apply$4.apply(PairRDDFunctions.
scala
:1106) at org.apache.<e
浏览 0
提问于2018-12-11
得票数 1
回答已采纳
6
回答
无法安装pyspark
、
我正在尝试安装pyspark,如下所示:我得到了这个错误:已经安装了pypandoc
浏览 6
提问于2018-07-24
得票数 15
2
回答
将
两个
存在
于蜂箱
中
的表连接在一起
、
、
、
我已经在eclipse
中
编写了Java程序来连接两个表,但是我在package附近得到了一个错误,下面是错误 package joins; import org.apache.
spark
.SparkContext; importorg.apache.
spark
.api.java
浏览 0
提问于2015-10-26
得票数 0
1
回答
火花1.5.2:无法持久化广播到磁盘的工作人员
最初,工作完成成功,但似乎在一两天后,一些工作
将
开始失败。(ResultTask.
scala
:62) at org.apache.
spark
.executor.Executor,很明显,块
目录
(在本例
中
是28)
中
的已编号子
目录
不
存在
,它似乎是FileNotFoundException的根
浏览 2
提问于2016-05-04
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券