腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用HDFS或S3运行
Spark
应用程序
、
、
在我的
spark
应用程序中,我只想访问一个
大文件
,并将计算分布在EC2上的许多节点上。使用S3中的sc.textFile()函数加载文件对我来说非常方便。但是,我可以花一些精力将数据加载到HDFS,然后从那里
读取
数据。 我的问题是,HDFS的性能会更好吗?我的代码涉及
spark
partitions(mapPartitions transforamtion),所以我的初始文件
系统
是什么真的很重要吗?
浏览 2
提问于2015-11-08
得票数 1
1
回答
spark
读取
大文件
、
当你在一个巨大的文件(400GB)到一个集群中,那里的集体执行器内存只有120GB,火花似乎是永远
读取
。它不会崩溃,也不会启动第一个地图作业。我认为发生的情况是,
Spark
正在以流的形式
读取
大文件
,并在executors耗尽内存时开始丢弃较旧的行。我想知道,
Spark
是否以某种方式将数据溢出到硬盘上,类似于shuffle溢出机制。 注意,我指的不是缓存过程。这与使用sc.textFile(filename)的初始
读取
有关
浏览 3
提问于2015-06-29
得票数 9
回答已采纳
1
回答
本地文件和集群模式
、
我刚刚开始使用Apache
Spark
。我正在使用集群模式,并且我想处理一个
大文件
。我使用来自SparkContext的textFile方法,它将
读取
所有节点上可用的本地文件
系统
。
浏览 3
提问于2016-05-31
得票数 1
1
回答
工人没有足够的记忆
check your cluster UI to ensure that workers are registered and have sufficient memory
spark
/bin/
spark
-submit --master $
SPARK
_MASTER_URL --executor-memory 8g --driver-memory 8g --name "Test-Task我的设置如下: SparkConf conf = new SparkConf().set(&quo
浏览 1
提问于2015-02-23
得票数 0
回答已采纳
2
回答
使用
Spark
框架实现
大文件
上传
、
我正在尝试使用将
大文件
上传到web应用程序,但遇到内存不足错误。看起来
spark
正在内存中缓存请求正文。我想要么将文件上传缓存到磁盘上,要么将请求作为流
读取
。我尝试过使用Apache Commons FileUpload的,但似乎调用request.raw().getInputStream()会导致
Spark
将整个正文
读取
到内存中,并返回该内存块的InputStream
浏览 1
提问于2016-04-06
得票数 0
1
回答
星星之火wholeTextFiles():java.lang.OutOfMemoryError: Java堆空间
、
、
、
我正在使用
spark
.wholeTextFiles()处理一个400‘m的文件,并不断地摆脱内存错误。我首先在一个文件文件夹中使用了这个API,该文件夹总共有40 my,我想知道我的代码是否适用于
大文件
,这就是
大文件
的来源。HadoopFile()按分区加载,它将与文件号一样多,即使文件很小,而且
读取
操作很昂贵。size sql将把文件夹加载到分区,分区的大小可以用
spark
.conf.set("
spark
.sql.files.maxPartitionBytes",
浏览 1
提问于2017-10-21
得票数 1
1
回答
独立Pyspark错误:打开的文件太多
、
我为
spark
会话尝试了几种不同的配置,都不起作用。此外,我将LINUX打开文件的限制增加到4096个,没有变化。下面是代码和错误的第一部分。
spark
= (SparkSession .appName('Project_name')
浏览 29
提问于2020-04-21
得票数 1
1
回答
在HDFS中存储1000个1 1GB的文件和1个1000 1GB的文件以供
Spark
进一步使用的区别是什么?如果有的话,哪一个更好?为什么?
、
我简单地使用
Spark
将数据从Mongo传输到HDFS,按某个字段对其进行分区,以便按该字段将其存储在不同的文件夹中。我正在尝试理解我是否应该指定"maxRecordsPerFile“,或者以某种方式划分一个由我的作业写入到每个文件夹的
大文件
,或者我应该只在每个文件夹中写入一个文件。我知道HDFS块的概念,HDFS会把
大文件
分成块等等。我想知道
读取
1个
大文件
和1000个不是很大(但仍然比块大得多)的文件之间是否有区别。代码示例: import org.apache.
spark
.
浏览 17
提问于2020-11-09
得票数 1
2
回答
在火花分析之前从FTP
读取
大文本文件
、
、
我在我的
系统
中以独立模式运行
spark
(希望在将来进行分发),以分析一个大于5 GB的非常大的文件。首先,我需要将这个文件从FTP复制到我的本地e.g c:\
spark
\analysis\bigfile.txt,然后我就可以加载
spark
文件进行分析了。有没有可能在
spark
中实现?我应该使用像kafka这样的流媒体库吗? 同样的方式,我需要在完成
spark
分析后向ftp服务器写入一个
大文件
。
浏览 3
提问于2017-12-24
得票数 0
3
回答
如何将HDFS小文件合并为一个
大文件
?
、
、
、
我有从Kafka流生成的小文件的数量,所以我喜欢合并小文件到一个单一的文件,但这种合并是基于日期,即原始文件夹可能有以前的文件数量,但我只喜欢合并给定的日期文件到一个单一的文件。
浏览 9
提问于2018-07-26
得票数 0
1
回答
告诉Linux在将文件写入磁盘时不要将其保存在缓存中。
、
我正在从用户模式应用程序将一个
大文件
写入磁盘。与此并行,我正在编写一个或多个较小的文件。
大文件
不会在短期内被
读取
,但是小文件可能会被
读取
。我有足够的RAM用于应用程序+较小的文件,但对
大文件
不够。我能否告诉操作
系统
,在将部分
大文件
写入磁盘后,不要将它们保存在缓存中,这样就可以为较小的文件提供更多的缓存?我仍然希望写入
大文件
的速度足够快。
浏览 5
提问于2020-09-21
得票数 0
回答已采纳
1
回答
Spark
scala :将csv文件上载到azure blob时出现文件已存在异常
、
、
、
我正在从azure blob
读取
sas文件。将其转换为csv并尝试将csv上传到azure blob。但是,对于MBs中的小文件,我可以使用以下
spark
scala代码成功地完成相同的操作。import org.apache.
spark
.SparkContext import org.apache.
spark
.sql.SQLContextimport com.github.saurfang.sas.
spark<
浏览 1
提问于2017-03-30
得票数 0
1
回答
如何使用
Spark
优化CSV远程文件上的模式推断
、
有没有一种方法可以优化模式的
读取
?
Spark
通过网络
读取
整个CSV文件,然后返回推断的架构。对于
大文件
,这可能需要相当长的时间。
浏览 20
提问于2019-05-08
得票数 1
1
回答
如何使用
spark
和ElasticSearch从/写入不同的elasticsearch集群?
、
、
、
、
我很高兴地使用了
spark
和elasticsearch (与elasticsearch-hadoop驱动程序)和几个巨大的集群。目前,无法将ES数据从集群中
读取
到RDD中,并使用
spark
+ elasticsearch-hadoop将RDD写入另一个RDD中,因为这将涉及从RDD中交换SparkContext。然而,这里出现了一个问题:然后我需要一个DFS(分布式文件
系统
)来在我整个星火集群中共享
大文件
。最流行的解决方案是HDFS,但我将非常避免将Hadoop引入我的堆栈中。是否还有其他推荐的DFS支持
浏览 9
提问于2015-03-12
得票数 6
回答已采纳
1
回答
S3并行读写性能?
、
、
、
考虑一个场景,其中
Spark
(或任何其他Hadoop框架)从S3
读取
一个
大文件
(比如1TB)。多个火花执行器如何从S3并行
读取
非常大的文件。这将大大降低
读取
吞吐量/性能。 类似地,HDFS中的
大文件
写入也应该比S3快得多,因为HDFS中的写入将分布在多个主机上,而所有数据都必须通过S3中的一个主机(为简洁而忽略复制)。
浏览 2
提问于2019-01-15
得票数 12
回答已采纳
1
回答
如何将较小的S3文件合并成较
大文件
(较
大文件
)
、
、
、
我在
Spark
中
读取
数据时遇到了一个问题,因为输入分区很大,我在
Spark
中遇到了Slow Down 503错误。请注意,我不是指一个分区下的小零件文件。
浏览 34
提问于2019-11-16
得票数 0
1
回答
在服务器上托管的R shiny工具上载
大文件
、
、
、
、
当在本地运行时,我可以通过
读取
路径立即上传
大文件
,但在我试图从客户端
系统
获取文件的服务器上,我没有
读取
路径的选项,因此我必须使用fileinput函数。但问题是,上传
大文件
需要很长时间。
浏览 5
提问于2020-01-21
得票数 0
1
回答
在S3中合并大量小csv文件(不同列大小)的最佳方法
、
、
、
我从s3下载这些csv文件到EMR集群,然后使用
Spark
代码合并这些csv文件,并尝试使用python代码合并它们。从我所做的实验来看,Python代码比
Spark
运行得更好,但不是idea。
浏览 3
提问于2018-06-07
得票数 1
1
回答
Spark
-改善名称列表和压缩文件之间字符串匹配的搜索时间
、
、
、
、
我正在尝试使用我使用的工作代码
Spark
.Below在压缩文件列表中搜索字符串列表。我已经将字符串列表保存到带有int键的字典中。hc.sql("SELECT fpath,docLength,strMatches FROM df2 WHERE length(strMatches) >0")我使用以下命令提交
spark
作业--conf
spark
.executor.memory=20g \ --conf
spark
.ex
浏览 28
提问于2020-05-04
得票数 0
2
回答
使用sc.textfile时
读取
文本文件的是驱动程序还是工作人员?
、
、
、
、
我的猜测是,驱动程序一次
读取
文件的一部分,并将
读取
的文本分发给工作人员,以进行处理。还是工人在没有司机参与的情况下直接从文件中阅读文本?
浏览 3
提问于2017-06-07
得票数 5
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python利用Pandas分块读取大文件
file_get_contents读取大文件
18G的大文件,PHP咋按行读取?
python如何读取大文件以及分析时的性能优化小技巧
Spark核心编程RDD分区器以及文件读取与保存
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券