腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
在
spark
/
scala
中
循环
和
处理
多个
HDFS
文件
、
、
我的
HDFS
文件
夹中有
多个
文件
,我想在上面
循环
并运行我的
scala
转换逻辑。 我正在使用下面的脚本,它在我的使用本地
文件
的开发环境
中
工作得很好,但是当我
在
我的
HDFS
环境
中
运行时,它就失败了。val files = new File("
hdfs
://172.X.X.X:8020/landing/").listFiles.m
浏览 34
提问于2021-02-27
得票数 0
回答已采纳
1
回答
Spark
和
JDBC:遍历大型表并写入
hdfs
、
、
、
、
我有一个基本的
spark
应用程序,我已经用
spark
的jdbc做了一些其他的调优,但是关系表
中
的数据仍然是0.5TB
和
20亿条记录,所以我虽然可以懒惰地加载完整的表,但我正在努力弄清楚如何根据日期有效地分区,并保存到
hdfs
中
,而不会遇到内存问题。由于
spark
中
的jdbc load()将将所有内容加载到内存
中
,所以我考虑
循环
遍历数据库查询
中
的日期,但仍然不知道如何确保内存不会耗尽。
浏览 5
提问于2017-06-22
得票数 1
3
回答
Apache Livy cURL不工作火花提交命令。
、
、
、
、
我最近开始使用
Scala
、
HDFS
、sbt
和
Livy。目前我试图创建livy batch。livy批
处理
日志
中
。我的星火提交命令
在
本地.jar
文件
中
运行得非常好。(
在
cURL
中
)来说,这也是抛出错误。因此,我
在
hdfs
中转换.jar
文件
。
浏览 0
提问于2018-06-21
得票数 1
3
回答
如何将.sql
文件
加载到
Scala
?
、
、
我将一个很长的SQL查询存储
在
一个data.sql
文件
中
。我想在我的
Scala
代码
中
执行这个
文件
。对于sql字符串,我使用
spark
.sql( sqlQuery )来执行sqlQuery。但是对于.sql
文件
,我应该如何执行它呢? 非常感谢!
浏览 0
提问于2018-05-09
得票数 3
1
回答
如何将
HDFS
中
承载的配置
文件
传递给
Spark
应用程序?
、
、
、
、
我
在
处理
星火结构的流媒体。另外,我还在与
Scala
合作。我想将配置
文件
传递给我的
spark
应用程序。此配置
文件
托管
在
HDFS
中
。例如;
spark
{ master: "", etc.. kafkaSourcetopic: "
浏览 1
提问于2019-05-07
得票数 1
回答已采纳
2
回答
Spark
从资源
文件
夹加载jar
中
的csv
文件
、
我正在尝试创建一个运行在
Scala
上的
Spark
应用程序,它读取位于src/main/resources目录
中
的.csv
文件
,并将其保存在本地
hdfs
实例上。当我
在
本地运行它时,一切都很有趣,但每当我将其捆绑为.jar
文件
并将其部署到服务器上时,就会出现问题…… 这是我的代码,位于src/main/
scala
中
,我的数据
文件
的位置是src/main/reso
浏览 80
提问于2019-03-07
得票数 4
1
回答
Spark
Streaming :通过从一个HDFSdir读取到另一个来将数据写入到
HDFS
、
、
、
我正在尝试使用火花流将数据从一个
HDFS
位置读取到另一个
HDFS
位置 下面是我
在
spark
-shell上的代码片段 但是我看不到
在
HDFS
输出目录上创建的
文件
,您能否指出如何在
HDFS
上加载这些
文件
scala
> sc.stop()
scala
> impo
浏览 12
提问于2018-12-21
得票数 1
回答已采纳
2
回答
利用
Spark
/
Scala
在
HDFS
文件
中
实现迭代写入
、
、
我正在学习如何使用
Spark
/
Scala
对
HDFS
中
的
文件
进行读写。我无法写入
HDFS
文件
,
文件
已创建,但它是空的。我不知道如何创建一个用于
在
文件
中
写入的
循环
。代码是:import org.apache.
spark
.SparkConf import org.a
浏览 1
提问于2017-06-15
得票数 1
1
回答
将
hdfs
文件
加载到
spark
上下文中
、
、
、
、
我是新的星火/
scala
,需要从
hdfs
加载一个
文件
来启动。我
在
hdfs
(/newhdfs/abc.txt)中有一个
文件
,我可以通过使用
hdfs
dfs -cat /newhdfs/abc.txt查看我的
文件
内容 我这样做是为了将
文件
加载到星火上下文中。
spark
-shell #It entered into
scala
console windo
浏览 3
提问于2016-09-30
得票数 2
回答已采纳
1
回答
如何从API拉取数据并将其存储
在
HDFS
中
、
我知道flume
和
Kafka,但这些都是事件驱动的工具。我不需要它是事件驱动的或实时的,但可能只是一天一次的导入。我已经使用Hadoop语言很长一段时间了,但我正在寻找一种更健壮的,可能是R环境的本机解决方案。
浏览 14
提问于2016-09-15
得票数 0
回答已采纳
2
回答
在
亚马逊EC2上使用
HDFS
和
Apache
Spark
、
、
、
、
我使用
spark
EC2脚本设置了
spark
集群。我设置了集群,现在正在尝试将一个
文件
放到
HDFS
上,这样我就可以让我的集群工作了。JavaRDD<String
浏览 1
提问于2015-06-08
得票数 0
1
回答
用于火花的
HDFS
Config
、
、
我想用pyspark从
HDFS
读取一个
文件
。).load("
hdfs
://localhost:8020/data/file.avro", header=True)使用以下命令:谢谢 编辑:我解决了!问题在etc
浏览 14
提问于2022-05-04
得票数 0
1
回答
无法从
HDFS
加载
文件
的火花数据
、
、
、
我
在
本地windows (
HDFS
://localhost:54310)路径/tmp/home/下存储了一个CSV
文件
。我想从
HDFS
加载这个
文件
来触发Dataframe。= "
hdfs
://localhost:54310/tmp/home/mycsv.csv"
spark
.sqlC
浏览 2
提问于2016-07-31
得票数 2
回答已采纳
1
回答
读取数据
文件
中
可用的
文件
路径,并使用
spark
读取这些
文件
的内容
、
、
、
它包含
hdfs
文件
路径。我想读取这些值,然后读取
文件
的内容。
在
没有任何嵌套RDD的情况下,利用并行
处理
解决这一问题的最佳方法是什么。我正在使用
Scala
2.11
和
Spark
2.1| value||
hdfs
://61.81.70.1...| |
hdfs
://
浏览 0
提问于2017-08-08
得票数 0
2
回答
如何使用
Spark
从
HDFS
读取
文件
?
、
、
我已经构建了一个使用Apache的推荐系统,它的数据集存储
在
我的项目
文件
夹
中
,现在我需要从
HDFS
访问这些
文件
。session.read().option("header", true).option("inferSchema", true).csv("
hdfs
:/
浏览 0
提问于2019-06-15
得票数 2
回答已采纳
1
回答
即使工作节点上不需要库,导入错误也会引发。
、
、
我正在为我的PySpark应用程序编写一个自定义库,它需要对一些CSV
文件
使用Pandas库进行一些预
处理
。由于输入
文件
本身存储
在
驱动程序
中
,而不是
HDFS
中
,所以
在
驱动节点上进行预
处理
是“假定的”(我认为是这样的)。我
在
Python运行脚本中所做的工作是
spark
浏览 4
提问于2019-04-26
得票数 0
回答已采纳
3
回答
java.io.IOException:不是数据
文件
、
、
我正在
处理
一堆avro
文件
,这些
文件
存储
在
HDFS
中
的嵌套目录结构
中
。这些
文件
存储在年份/月/日/小时格式目录结构
中
。我面临的最大问题是它没有告诉我哪个
文件
不是数据
文件
。因此,我将不得不在
HDFS
中
扫描1000 s的
文件
,以确定哪个
文件
不是数据
文件
。 是否有更有效的方法来调试
浏览 7
提问于2015-11-01
得票数 5
回答已采纳
1
回答
如何使并发与写入蜂窝表的数据
文件
一起工作?
、
、
、
、
我
在
Spark
1.6上有
多个
线程
在
同一个蜂箱表
中
写入(使用拼花
文件
),当它们试图同时写入时,会在将
文件
重命名为
HDFS
的过程中提示一个错误。我正在寻找一个解决方案来绕过这个已知的火花问题。(commands.
scala
:56) at org.apache.
spark
.sql.execution.ExecutedCommand.doExecute(commands.
scala
:70(DataF
浏览 2
提问于2018-12-28
得票数 2
1
回答
spark
.read.parquet
和
pyarrow.
hdfs
.connect().read_parquet的区别是什么?
、
、
我有
hdfs
格式的
文件
,有两个选项可以读取:我能知道这两者有什么区别吗
浏览 10
提问于2020-06-16
得票数 0
1
回答
使用Nifi预
处理
大
文件
、
、
我们有高达8 8GB的
文件
,其中包含结构化内容,但重要的元数据存储
在
文件
的最后一行,需要附加到每一行内容。使用ReverseFileReader获取最后一行很容易,但这需要
文件
在
磁盘上是静态的,而我无法
在
现有的Nifi流中找到这样做的方法?在数据流到内容存储库之前,这是可能的吗?
浏览 43
提问于2019-06-22
得票数 1
回答已采纳
点击加载更多
相关
资讯
Spark-2
Spark简介和架构
大数据框架之从Hadoop到Spark详解
Hadoop体系结构中的服务解决介绍
从Hadoop到Spark,看大数据框架发展之路
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
云直播
活动推荐
运营活动
广告
关闭
领券