腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(1078)
视频
沙龙
1
回答
在
HDFS
中
存储
1000
个
1
1GB
的
文件
和
1
个
1000
1GB
的
文件
以供
Spark
进一步
使用
的
区别
是什么
?
如果有
的话
,
哪一个
更好
?
为什么
?
apache-spark
、
hdfs
我简单地
使用
Spark
将数据从Mongo传输到
HDFS
,按某个字段对其进行分区,以便按该字段将其
存储
在
不同
的
文件
夹
中
。我正在尝试理解我是否应该指定"maxRecordsPerFile“,或者以某种方式划分一个由我
的
作业写入到每个
文件
夹
的
大
文件
,或者我应该只
在
每个
文件
夹
中
写入一个
文件
。我知道
HD
浏览 17
提问于2020-11-09
得票数 1
2
回答
创建星火中小于100行组大小
的
拼花
文件
。
hadoop
、
apache-spark
、
parquet
我有一个火花数据帧,有少量
的
字段。其中一些字段是巨大
的
二进制小块。整行
的
大小约为50 MB。 我正在将数据帧保存为拼花格式。我
使用
parquet.block.size参数控制行组
的
大小。星火将生成一个拼花
文件
,但我将始终得到至少100行
在
一行组。这对我来说是个问题,因为块大小可能变成千兆字节,这与我
的
应用程序不太一样。是否有不同
的
/
更好
的
方法来获得小于100
的
行组大小?i
浏览 2
提问于2018-01-09
得票数 11
回答已采纳
1
回答
当
存储
在
S3
中
时,正确
的
Parquet
文件
大小?
apache-spark
、
hdfs
、
parquet
我一直
在
阅读有关这个主题
和
几个论坛
的
几个问题,在所有这些问题中,他们似乎都提到,从
Spark
输出
的
每个.parquet
文件
都应该是64 my或
1GB
大小,但我仍然无法思考哪些情况下场景属于这些
文件
大小,,这些数据将被分割并保存到每年
的
每日
存储
桶
中
。“n”为4或48
的
原因仅仅是为了测试目的,因为我事先知道测试集
的
大小,所以我尽量得到一个接近64 my或
1GB
浏览 0
提问于2019-01-22
得票数 6
回答已采纳
1
回答
Spark
如何读取Parquet分区
文件
apache-spark
、
apache-spark-sql
、
partitioning
、
parquet
我有一个大约
1GB
的
拼花
文件
。每个数据记录是从IOT设备
中
读取
的
,IOT设备
在
最后一分钟内捕获设备消耗
的
能量。模式: houseId,deviceId,能量--
在
houseId
和
deviceId上分割拼花
文件
。一个
文件
只包含过去24小时
的
数据。我想
使用
Spark
对驻留在这个拼花
文件
中
的
数据执行
浏览 0
提问于2018-04-24
得票数 4
回答已采纳
1
回答
理解驱动程序
和
执行器配置
的
术语
apache-spark
、
pyspark
、
process
、
distributed-computing
、
cpu-cores
spark
.driver.memory -驱动程序进程要
使用
的
内存量
spark
.executor.memory -每个执行器进程要
使用
的
内存量例如,
如果有
三台计算机-- C
1
、C2
和
C3 --带有英特尔i5处理器(CPU),该处理器有4个核心(简称RAM /apsSW),并承
浏览 8
提问于2022-06-24
得票数 0
2
回答
用于大型图像处理
的
Hadoop
hadoop
、
apache-spark
、
mapr
、
bigdata
我有一组50 to
的
~
1GB
tiff图像,我需要在这些图像上运行相同
的
算法。目前,我有C++编写
的
纠正过程,它工作良好,但它将永远运行在所有这些图像连续运行。我知道MapReduce/
Spark
的
实现可以工作,但我似乎不知道如何
使用
图像输入/输出。 我看到
的
每个教程/示例都
使用
纯文本。理论上,我也想利用Amazon服务。
如果有
人对我有指导
的话
,那就太好了。我显然不是<
浏览 0
提问于2016-06-23
得票数 4
回答已采纳
3
回答
如果我们
使用
小
文件
,
HDFS
中
是否有内存丢失?
hadoop
、
hdfs
下面我引用了Hadoop
的话
--权威指南:但是,请注意,小
文件
占用
的
磁盘空间不超过
存储
文件
的
原始内容所需
的
空间。例如,
存储
块大小为128 MB
的
1
MB
文件
使用
1
MB
的
磁盘空间,而不是128 MB,
1
)
存储
块大小为128 MB
的
1
MB
浏览 1
提问于2015-05-11
得票数 2
回答已采纳
2
回答
在
引擎盖下面?猪在哪里保存中间结果/关系数据?
hadoop
、
hive
、
hdfs
、
apache-pig
、
bigdata
在
需要
进一步
处理时
使用
,即生成wellpaid_employees.
1
) employees关系--如果它只是将employees保存在临时目录
中
(这是基于配置
的
),那么好处
是什么
。它每次都可以从
HDFS
读取数据。而且
文件
可以大到
1GB
到
1
TB甚至更多。因此,我假设LOAD不会在任何其他地方重复数据。它是懒惰
的
。它
使用
HDFS
中</em
浏览 3
提问于2016-11-15
得票数 0
2
回答
什么是hadoop (单点
和
多点)节点,火花主节点
和
火花工作者?
apache-spark
、
hadoop
、
hdfs
我想了解以下几个术语:到目前为止,我所了解
的
是火花主是工作执行者,并处理所有的火花工人。而hadoop是
hdfs
(我们
的
数据所在),火花工作者根据给他们
的
任务读取数据。如果我错了,请纠正我。 我还想了解namenode
和
datanode
的
角色。虽然我知道namenode
的
角色(拥有所有数据
的
元数据信息,最好是一个,但可以是两个),而且datanodes可以是多个且具
浏览 6
提问于2016-05-05
得票数 1
1
回答
PostgreSQL吐司不压缩值
postgresql
我正在做一些测试,以检查在我
的
PostgreSQL数据库
中
存储
加密数据
的
最佳方法。实验: 创建带有随机文本
的
文件
浏览 2
提问于2019-02-25
得票数 1
回答已采纳
2
回答
星星之火:重分区与partitionBy
中
列参数
的
顺序
apache-spark
、
dataframe
、
apache-spark-sql
、
partitioning
注意:这个问题并没有问这些方法之间
的
区别
No:如
浏览 3
提问于2018-01-20
得票数 11
回答已采纳
3
回答
使用
文件
系统
和
SQL数据库
的
Winforms Document Manager
c#
、
.net
、
sql
、
vb.net
、
winforms
我正在尝试为我
的
winforms应用程序创建一个文档管理器。它不是基于web
的
。 我希望能够允许用户
在
我
的
应用程序中将文档“附加”到各种实体(人员、公司、工作订单、任务、批处理部件等)。经过大量研究,我决定
使用
文件
系统而不是SQL
中
的
blob来
存储
文件
。我将设置一个
文件
夹来
存储
所有的
文件
,但我会将文档信息(
文件
路径、上传者、更改者、修订者等)与实
浏览 0
提问于2011-06-29
得票数 4
回答已采纳
3
回答
提交不出现在Gitlab上
git
、
svn
、
repository
、
gitlab
、
unreal-engine4
关于GitLab
的
免费版本,我有一个问题。这似乎是断断续续
的
。我
的
问题:
如果有</e
浏览 13
提问于2016-01-10
得票数 1
1
回答
Exchange Standard 2003:我可以删除公用
文件
夹吗?
windows-server-2003
、
exchange-2003
、
disk-space-utilization
、
public-folders
公用
文件
夹没有人经常
使用
,但据我所读,您不能只是卸载
和
删除公用
文件
夹
存储
,因为Exchange系统数据
存储
在那里。这是真的吗?我真的不能卸载
和
删除公用
文件
夹
存储
吗?它将给我们大约30 get
的
磁盘空间,这是我们真正需要
的
(仍然不足以进行离线退化,但将帮助我们通过,直到这些驱动器获得批准,订购,并安装)。
如果有
其他
的
建议/选择
的话
,我愿
浏览 0
提问于2010-09-25
得票数 0
回答已采纳
5
回答
PHP数组包括性能
php
、
performance
、
arrays
、
include
如果我包含一个巨大
的
PHP数组,我会受到什么类型
的
性能影响?例如,假设我
在
"data.php“中有一个
1
GBPHP数组,如下所示如果我
在
"header.php“
中
包含那个巨大
的
"data.php”
文件
,它在执行"header.php“时会对性能产生怎样
的
影响?
浏览 0
提问于2010-05-04
得票数 1
回答已采纳
2
回答
对于一个
文件
组
中
的
多个
文件
,何时开始将数据放在
文件
组
中
的
第二个
文件
上?
sql-server
、
sql-server-2014
、
disk-space
、
filegroups
在前一个问题中,有人建议我应该在现有的(主要)
文件
组
中
添加一个额外
的
“
文件
”,以便为我
的
DB添加更多
的
磁盘空间。
在
@davidbrowne对我
的
问题
的
出色回答,他提到: 当
文件
组有多个
文件
时,Server
使用
“比例填充
浏览 0
提问于2020-02-12
得票数 2
3
回答
一种
在
C#
中
处理大型xml
文件
的
方法
c#
在
我
的
机构
中
,我们处理巨大
的
xml
文件
(最大
1
GB),并将详细信息插入到数据库表
中
。根据当前
的
设计,我们正在
使用
XmlReader解析xml
文件
,并形成包含所需数据
的
xml字符串,然后将其传递到
存储
过程(xml数据类型)
中
,以将详细信息插入到db
中
。现在
的
问题是,我们不确定是否有比这
更好
的
方
浏览 2
提问于2011-02-16
得票数 3
3
回答
如何处理“
文件
系统根有较低
的
存储
”?
partitioning
、
mount
、
filesystem
、
root
我随机地得到这个弹出通知,其中
文件
系统根有不同
的
磁盘空间,并且总是小于
1GB
。似乎有很多东西被下载到根
文件
夹
中
,比如包
和
其他东西。下面是我
的
文件
系统
的
图片:如您所见,根目录只剩下~200 to,而我将大量空间(70 To)委托给/home,后者仍然有大量可用空间。
在
我
的
根目录
中
,我总共只有20 GB。然后我
使用
baobab来查看
浏览 0
提问于2021-05-16
得票数 3
1
回答
PySpark独立: java.lang.IllegalStateException:未读块数据
apache-spark
、
pyspark
、
spark-dataframe
我对
使用
pyspark相当陌生,我一直
在
尝试运行一个脚本,该脚本
在
本地模式下运行良好,其中包含
1000
行数据子集,但现在在所有数据(
1GB
)
中
以独立模式抛出错误。我认为这会随着更多
的
数据=更多
的
问题而发生,但我很难理解
是什么
导致了这个问题。下面是我
的
独立集群
的
详细信息:
spark
.driver.maxResultSize=<em
浏览 5
提问于2016-07-11
得票数 1
回答已采纳
1
回答
从JSON - Hadoop vs
Spark
中提取
和
分析数据
apache-spark
、
hadoop
、
apache-spark-sql
、
hdfs
、
data-processing
我正在努力学习整个开源
的
大数据栈,我已经从
HDFS
、Hadoop MapReduce
和
Spark
开始了。我或多或少地受限于MapReduce
和
Spark
(SQL?)对于"ETL",
HDFS
用于
存储
,而对于其他事物则没有其他限制。 数据源
1
(DS
1
):大量数据--总计约
1
TB。我
在
每
浏览 0
提问于2019-07-27
得票数 0
点击加载更多
相关
资讯
1g等于多少mb流量?掌握流量换算,告别流量焦虑!
大规模集群故障处理,能抗住这3个灵魂拷问算你赢
Spark Streaming 中管理 Kafka Offsets 的几种方式
如何从根源上解决 HDFS 小文件问题
大数据 HDFS 小文件处理方案
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
即时通信 IM
活动推荐
运营活动
广告
关闭
领券