腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
在火花分析之前从FTP读取大文本文件
apache-spark
、
apache-spark-sql
、
bigdata
我在我的
系统
中以独立模式运行
spark
(希望在将来进行分发),以分析一个大于5 GB的非常大的文件。首先,我需要将这个文件从FTP复制到我的本地e.g c:\
spark
\analysis\bigfile.txt,然后我就可以加载
spark
文件进行分析了。有没有可能在
spark
中实现?我应该使用像kafka这样的流媒体库吗? 同样的方式,我需要在完成
spark
分析后向ftp服务器写入一个
大文件
。
浏览 3
提问于2017-12-24
得票数 0
1
回答
使用HDFS或S3运行
Spark
应用程序
amazon-s3
、
apache-spark
、
hdfs
在我的
spark
应用程序中,我只想访问一个
大文件
,并将计算分布在EC2上的许多节点上。使用S3中的sc.textFile()函数加载文件对我来说非常方便。我的代码涉及
spark
partitions(mapPartitions transforamtion),所以我的初始文件
系统
是什么真的很重要吗?
浏览 2
提问于2015-11-08
得票数 1
1
回答
AWS如何对单个文件进行动态框架分区?
pyspark
、
aws-glue
有人能解释一下AWS Glue如何分割单个
大文件
吗?如果使用
spark
.sql.files.maxPartitionBytes将
大文件
转换为分区,如何在胶水作业中覆盖它?我试过使用sparkConf conf = SparkConf() conf.set('
spark
.files.maxPartitionBytes',41943040) # 40MB sc= SparkContext
浏览 2
提问于2021-09-23
得票数 0
1
回答
工人没有足够的记忆
apache-spark
check your cluster UI to ensure that workers are registered and have sufficient memory
spark
/bin/
spark
-submit --master $
SPARK
_MASTER_URL --executor-memory 8g --driver-memory 8g --name "Test-Task我的设置如下: SparkConf conf = new SparkConf().set(&quo
浏览 1
提问于2015-02-23
得票数 0
回答已采纳
1
回答
本地文件和集群模式
apache-spark
、
cluster-computing
我刚刚开始使用Apache
Spark
。我正在使用集群模式,并且我想处理一个
大文件
。我使用来自SparkContext的textFile方法,它将读取所有节点上可用的本地文件
系统
。
浏览 3
提问于2016-05-31
得票数 1
1
回答
为什么当洗牌发生时,火花会占用太多的内存?
memory
、
apache-spark
、
shuffle
我发现当星火过程中发生洗牌时,内存使用太多了。我认为主要原因是洗牌,因为rdd.map没有洗牌,但rdd.groupBy有洗牌。 在这种情
浏览 6
提问于2017-01-06
得票数 0
1
回答
星星之火:在2个文件上读取迭代
java
、
hadoop
、
bigdata
、
apache-spark
我需要一些关于
Spark
+Java编程的帮助。这是我的问题: } { //Write output in some way是否有可能使用
Spark
浏览 3
提问于2014-11-17
得票数 1
回答已采纳
1
回答
独立Pyspark错误:打开的文件太多
pyspark
、
bigdata
我为
spark
会话尝试了几种不同的配置,都不起作用。此外,我将LINUX打开文件的限制增加到4096个,没有变化。下面是代码和错误的第一部分。
spark
= (SparkSession .appName('Project_name')
浏览 29
提问于2020-04-21
得票数 1
2
回答
当文件不能放入
spark
的主内存时,
spark
如何读取
大文件
(‘s)
apache-spark
、
rdd
、
partition
在这些情况下,
大文件
会发生什么情况? 1)
Spark
从NameNode获取数据的位置。
Spark
是否会在同一时间停止,因为根据来自NameNode的信息,数据大小太长?2)
Spark
根据datanode块大小对数据进行分区,但不能将所有数据存储到主存中。这里我们不使用StorageLevel。那么这里会发生什么呢?3)
Spark
做数据分区,有些数据会存储在主存中,一旦这个主存中的数据被重新处理,
spark
就会从磁盘中加载其他数据。
浏览 0
提问于2017-10-09
得票数 30
回答已采纳
1
回答
在HDFS中存储1000个1 1GB的文件和1个1000 1GB的文件以供
Spark
进一步使用的区别是什么?如果有的话,哪一个更好?为什么?
apache-spark
、
hdfs
我简单地使用
Spark
将数据从Mongo传输到HDFS,按某个字段对其进行分区,以便按该字段将其存储在不同的文件夹中。我正在尝试理解我是否应该指定"maxRecordsPerFile“,或者以某种方式划分一个由我的作业写入到每个文件夹的
大文件
,或者我应该只在每个文件夹中写入一个文件。我知道HDFS块的概念,HDFS会把
大文件
分成块等等。我想知道读取1个
大文件
和1000个不是很大(但仍然比块大得多)的文件之间是否有区别。代码示例: import org.apache.
spark
.sql.funct
浏览 17
提问于2020-11-09
得票数 1
1
回答
spark
读取
大文件
memory-management
、
apache-spark
我认为发生的情况是,
Spark
正在以流的形式读取
大文件
,并在executors耗尽内存时开始丢弃较旧的行。我想知道,
Spark
是否以某种方式将数据溢出到硬盘上,类似于shuffle溢出机制。 注意,我指的不是缓存过程。这与使用sc.textFile(filename)的初始读取有关
浏览 3
提问于2015-06-29
得票数 9
回答已采纳
1
回答
将数据插入到单元外部表中,创建非常小的部件文件
apache-spark
、
pyspark
、
apache-spark-sql
、
hiveql
、
pyspark-sql
除了重新分区(这减慢了处理速度),还有其他方法将所有1mb文件合并成多个
大文件
吗?
spark
.sql("set pyspark.hadoop.hive.exec.dynamic.partition=true")
浏览 0
提问于2019-06-27
得票数 2
回答已采纳
1
回答
SQL dataframe first and last不返回"real“first和last值
apache-spark
、
aggregate-functions
、
apache-spark-sql
、
spark-dataframe
我尝试在一个
大文件
上使用Apache
Spark
SQL dataframe的聚合函数"first“和"last”,其中有一个
spark
master和2个worker。当我执行"first“和" last”操作时,我希望返回文件中的最后一列;但看起来
Spark
返回的是worker分区中的"first“或"last”。
浏览 0
提问于2016-01-23
得票数 1
2
回答
使用RStudio中的sparklyr,我是否可以将本地csv文件上传到
spark
集群
r
、
apache-spark
、
rstudio
、
sparkr
我成功地在Rstudio中创建了一个
spark
_context (使用sparklyr)来连接到我们本地的
Spark
集群。使用copy_to我可以将数据帧从R上传到
Spark
,但我正在尝试使用
spark
_read_csv将本地存储的CSV文件直接上传到
Spark
集群,而无需先将其导入R环境(这是一个5 5GB的
大文件
)。如何将本地文件直接上传到
spark
,而无需先将其加载到R? 任何建议都很感谢。
浏览 21
提问于2017-01-25
得票数 1
回答已采纳
1
回答
有什么方法可以分割不适合内存的
大文件
,这样以后就可以作为训练数据输入?
machine-learning
、
bigdata
是否有其他方法来划分一个不适合内存的
大文件
,这样它就可以作为训练数据输入,而不是使用
spark
?还是hadoop?
浏览 0
提问于2019-03-26
得票数 1
回答已采纳
1
回答
Spark
scala :将csv文件上载到azure blob时出现文件已存在异常
scala
、
azure
、
apache-spark
、
azure-blob-storage
但是,对于MBs中的小文件,我可以使用以下
spark
scala代码成功地完成相同的操作。import org.apache.
spark
.SparkContext import org.apache.
spark
.sql.SQLContextimport com.github.saurfang.sas.
spark
._ val df=
浏览 1
提问于2017-03-30
得票数 0
2
回答
如何控制在
spark
中设置大分区时生成的文件数?
apache-spark
、
pyspark
、
apache-spark-sql
由于输入数据的数量很大,我设置了
spark
(
spark
.sql.shuffle.partitions=1000)的大洗牌分区。如何将这些小文件组合成一个
大文件
? 另一个问题是,为什么输出文件的数量是洗牌分区数量的3倍?
浏览 24
提问于2021-12-14
得票数 1
3
回答
如何将HDFS小文件合并为一个
大文件
?
bash
、
scala
、
apache-spark
、
hdfs
我有从Kafka流生成的小文件的数量,所以我喜欢合并小文件到一个单一的文件,但这种合并是基于日期,即原始文件夹可能有以前的文件数量,但我只喜欢合并给定的日期文件到一个单一的文件。
浏览 9
提问于2018-07-26
得票数 0
1
回答
星星之火wholeTextFiles():java.lang.OutOfMemoryError: Java堆空间
apache-spark
、
jvm
、
out-of-memory
、
apache-spark-sql
我正在使用
spark
.wholeTextFiles()处理一个400‘m的文件,并不断地摆脱内存错误。我首先在一个文件文件夹中使用了这个API,该文件夹总共有40 my,我想知道我的代码是否适用于
大文件
,这就是
大文件
的来源。output/no") 我比较了
spark
size sql将把文件夹加载到分区,分区的大小可以用
浏览 1
提问于2017-10-21
得票数 1
1
回答
获取特定驱动器的最
大文件
大小
winapi
、
filesystems
有什么WinAPI方法可以获得特定驱动器的最
大文件
大小吗?我使用GetVolumeInformation确定文件
系统
类型,然后使用映射表将文件
系统
类型映射到其已知的最
大文件
大小。我想要的: 我想知道Microsoft是否提供了一种直接获取任意文件
系统
类型的
浏览 6
提问于2022-11-04
得票数 -1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
深入浅出Spark(三):Spark调度系统之“权力的游戏”
设计一个大文件存储系统
如何快速传输大文件,介绍大文件快速方法
Windows系统是这样配置spark环境的
基于Spark的大规模推荐系统特征工程
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券