在HDFS中存储1000个1 1GB的文件和1个1000 1GB的文件以供Spark进一步使用的区别是什么？如果有的话，哪一个更好?为什么？

文章/答案/技术大牛

发布

1回答

apache-spark、hdfs

我简单地使用Spark将数据从Mongo传输到HDFS，按某个字段对其进行分区，以便按该字段将其存储在不同的文件夹中。我正在尝试理解我是否应该指定"maxRecordsPerFile“，或者以某种方式划分一个由我的作业写入到每个文件夹的大文件，或者我应该只在每个文件夹中写入一个文件。我知道HD

浏览 17提问于2020-11-09得票数 1

2回答

创建星火中小于100行组大小的拼花文件。

hadoop、apache-spark、parquet

我有一个火花数据帧，有少量的字段。其中一些字段是巨大的二进制小块。整行的大小约为50 MB。我正在将数据帧保存为拼花格式。我使用parquet.block.size参数控制行组的大小。星火将生成一个拼花文件，但我将始终得到至少100行在一行组。这对我来说是个问题，因为块大小可能变成千兆字节，这与我的应用程序不太一样。是否有不同的/更好的方法来获得小于100的行组大小？i

浏览 2提问于2018-01-09得票数 11

回答已采纳

1回答

当存储在S3中时，正确的Parquet文件大小？

apache-spark、hdfs、parquet

我一直在阅读有关这个主题和几个论坛的几个问题，在所有这些问题中，他们似乎都提到，从Spark输出的每个.parquet文件都应该是64 my或1GB大小，但我仍然无法思考哪些情况下场景属于这些文件大小，，这些数据将被分割并保存到每年的每日存储桶中。“n”为4或48的原因仅仅是为了测试目的，因为我事先知道测试集的大小，所以我尽量得到一个接近64 my或1GB

浏览 0提问于2019-01-22得票数 6

回答已采纳

1回答

Spark如何读取Parquet分区文件

apache-spark、apache-spark-sql、partitioning、parquet

我有一个大约1GB的拼花文件。每个数据记录是从IOT设备中读取的，IOT设备在最后一分钟内捕获设备消耗的能量。模式: houseId，deviceId，能量--在houseId和deviceId上分割拼花文件。一个文件只包含过去24小时的数据。我想使用Spark对驻留在这个拼花文件中的数据执行

浏览 0提问于2018-04-24得票数 4

回答已采纳

1回答

理解驱动程序和执行器配置的术语

apache-spark、pyspark、process、distributed-computing、cpu-cores

spark.driver.memory -驱动程序进程要使用的内存量 spark.executor.memory -每个执行器进程要使用的内存量例如，如果有三台计算机-- C1、C2和C3 --带有英特尔i5处理器(CPU)，该处理器有4个核心(简称RAM /apsSW)，并承

浏览 8提问于2022-06-24得票数 0

2回答

用于大型图像处理的Hadoop

hadoop、apache-spark、mapr、bigdata

我有一组50 to的~1GB tiff图像，我需要在这些图像上运行相同的算法。目前，我有C++编写的纠正过程，它工作良好，但它将永远运行在所有这些图像连续运行。我知道MapReduce/Spark的实现可以工作，但我似乎不知道如何使用图像输入/输出。我看到的每个教程/示例都使用纯文本。理论上，我也想利用Amazon服务。如果有人对我有指导的话，那就太好了。我显然不是<

浏览 0提问于2016-06-23得票数 4

回答已采纳

3回答

如果我们使用小文件，HDFS中是否有内存丢失？

hadoop、hdfs

下面我引用了Hadoop的话--权威指南:但是，请注意，小文件占用的磁盘空间不超过存储文件的原始内容所需的空间。例如，存储块大小为128 MB的1MB文件使用1MB的磁盘空间，而不是128 MB，1)存储块大小为128 MB的1MB

浏览 1提问于2015-05-11得票数 2

回答已采纳

2回答

在引擎盖下面？猪在哪里保存中间结果/关系数据？

hadoop、hive、hdfs、apache-pig、bigdata

在需要进一步处理时使用，即生成wellpaid_employees. 1) employees关系--如果它只是将employees保存在临时目录中(这是基于配置的)，那么好处是什么。它每次都可以从HDFS读取数据。而且文件可以大到1GB到1TB甚至更多。因此，我假设LOAD不会在任何其他地方重复数据。它是懒惰的。它使用HDFS中</em

浏览 3提问于2016-11-15得票数 0

2回答

什么是hadoop (单点和多点)节点，火花主节点和火花工作者？

apache-spark、hadoop、hdfs

我想了解以下几个术语：到目前为止，我所了解的是火花主是工作执行者，并处理所有的火花工人。而hadoop是hdfs (我们的数据所在)，火花工作者根据给他们的任务读取数据。如果我错了，请纠正我。我还想了解namenode和datanode的角色。虽然我知道namenode的角色(拥有所有数据的元数据信息，最好是一个，但可以是两个)，而且datanodes可以是多个且具

浏览 6提问于2016-05-05得票数 1

1回答

PostgreSQL吐司不压缩值

postgresql

我正在做一些测试，以检查在我的PostgreSQL数据库中存储加密数据的最佳方法。实验：创建带有随机文本的文件

浏览 2提问于2019-02-25得票数 1

回答已采纳

2回答

星星之火:重分区与partitionBy中列参数的顺序

apache-spark、dataframe、apache-spark-sql、partitioning

注意:这个问题并没有问这些方法之间的区别 No：如

浏览 3提问于2018-01-20得票数 11

回答已采纳

3回答

使用文件系统和SQL数据库的Winforms Document Manager

c#、.net、sql、vb.net、winforms

我正在尝试为我的winforms应用程序创建一个文档管理器。它不是基于web的。我希望能够允许用户在我的应用程序中将文档“附加”到各种实体(人员、公司、工作订单、任务、批处理部件等)。经过大量研究，我决定使用文件系统而不是SQL中的blob来存储文件。我将设置一个文件夹来存储所有的文件，但我会将文档信息(文件路径、上传者、更改者、修订者等)与实

浏览 0提问于2011-06-29得票数 4

回答已采纳

3回答

提交不出现在Gitlab上

git、svn、repository、gitlab、unreal-engine4

关于GitLab的免费版本，我有一个问题。这似乎是断断续续的。我的问题： 如果有</e

浏览 13提问于2016-01-10得票数 1

1回答

Exchange Standard 2003:我可以删除公用文件夹吗？

windows-server-2003、exchange-2003、disk-space-utilization、public-folders

公用文件夹没有人经常使用，但据我所读，您不能只是卸载和删除公用文件夹存储，因为Exchange系统数据存储在那里。这是真的吗？我真的不能卸载和删除公用文件夹存储吗？它将给我们大约30 get的磁盘空间，这是我们真正需要的(仍然不足以进行离线退化，但将帮助我们通过，直到这些驱动器获得批准，订购，并安装)。 如果有其他的建议/选择的话，我愿

浏览 0提问于2010-09-25得票数 0

回答已采纳

5回答

PHP数组包括性能

php、performance、arrays、include

如果我包含一个巨大的PHP数组，我会受到什么类型的性能影响？例如，假设我在"data.php“中有一个1GBPHP数组，如下所示如果我在"header.php“中包含那个巨大的"data.php”文件，它在执行"header.php“时会对性能产生怎样的影响？

浏览 0提问于2010-05-04得票数 1

回答已采纳

2回答

对于一个文件组中的多个文件，何时开始将数据放在文件组中的第二个文件上？

sql-server、sql-server-2014、disk-space、filegroups

在前一个问题中，有人建议我应该在现有的(主要)文件组中添加一个额外的“文件”，以便为我的DB添加更多的磁盘空间。在@davidbrowne对我的问题的出色回答，他提到：当文件组有多个文件时，Server使用“比例填充

浏览 0提问于2020-02-12得票数 2

3回答

一种在C#中处理大型xml文件的方法

在我的机构中，我们处理巨大的xml文件(最大1 GB)，并将详细信息插入到数据库表中。根据当前的设计，我们正在使用XmlReader解析xml文件，并形成包含所需数据的xml字符串，然后将其传递到存储过程(xml数据类型)中，以将详细信息插入到db中。现在的问题是，我们不确定是否有比这更好的方

浏览 2提问于2011-02-16得票数 3

3回答

如何处理“文件系统根有较低的存储”？

partitioning、mount、filesystem、root

我随机地得到这个弹出通知，其中文件系统根有不同的磁盘空间，并且总是小于1GB。似乎有很多东西被下载到根文件夹中，比如包和其他东西。下面是我的文件系统的图片：如您所见，根目录只剩下~200 to，而我将大量空间(70 To)委托给/home，后者仍然有大量可用空间。在我的根目录中，我总共只有20 GB。然后我使用baobab来查看

浏览 0提问于2021-05-16得票数 3

1回答

PySpark独立: java.lang.IllegalStateException:未读块数据

apache-spark、pyspark、spark-dataframe

我对使用pyspark相当陌生，我一直在尝试运行一个脚本，该脚本在本地模式下运行良好，其中包含1000行数据子集，但现在在所有数据( 1GB )中以独立模式抛出错误。我认为这会随着更多的数据=更多的问题而发生，但我很难理解是什么导致了这个问题。下面是我的独立集群的详细信息： spark.driver.maxResultSize=<em

浏览 5提问于2016-07-11得票数 1

回答已采纳

1回答

从JSON - Hadoop vs Spark中提取和分析数据

apache-spark、hadoop、apache-spark-sql、hdfs、data-processing

我正在努力学习整个开源的大数据栈，我已经从HDFS、Hadoop MapReduce和Spark开始了。我或多或少地受限于MapReduce和Spark (SQL?)对于"ETL"，HDFS用于存储，而对于其他事物则没有其他限制。数据源1 (DS1)：大量数据--总计约1TB。我在每

浏览 0提问于2019-07-27得票数 0

点击加载更多