sparksql合并小文件 - 腾讯云开发者社区

、

我正在使用SparkSQL运行一个火花应用程序。如何合并小文件？我知道.repartition和.coalesce，但这不能用SparkSQL来完成。

浏览 2提问于2018-10-11得票数 0

2回答

如何合并sparksql保存在hive上的小文件？

、

配置单元的输出hdfs文件包含太多小文件。如何在保存到配置单元时合并它们？myDf.write.format("orc").partitionBy("datestr").insertInto("myHiveTable") 当有100个任务时，它将产生100个小文件。

浏览 11提问于2016-08-29得票数 1

1回答

我有很多小文件。我想把它们装入一个RDD中。然后映射到它们上，并行地执行对这些文件的算法。该算法需要从HDFS/Hive表中获取数据。当我使用SparkSQL获取数据时，会得到以下错误： pickle.PicklingError:无法序列化对象:异常:似乎您试图从广播变量、操作或转换引用SparkContext。SparkSQL使用SQLContext，它是SparkContext的包装器。这是否意味着我不能在对工作人员执行的代码中使用SparkSQL？但那样的话，它就太有限了。下面是我使用的示例PySpark

浏览 2提问于2017-10-02得票数 1

1回答

星星之火-SQL查询提示以提高连接性能

、

我最近被介绍给SparkSQL。我们使用Spark 2.4。最近，我发现SparkSQL查询支持其连接策略的以下提示：不幸的是，我还没有找到任何在线材料来详细讨论这些提示及其应用场景。

浏览 3提问于2020-06-08得票数 1

3回答

如何将HDFS小文件合并为一个大文件？

、、、

我有从Kafka流生成的小文件的数量，所以我喜欢合并小文件到一个单一的文件，但这种合并是基于日期，即原始文件夹可能有以前的文件数量，但我只喜欢合并给定的日期文件到一个单一的文件。有什么建议吗？

浏览 9提问于2018-07-26得票数 0

1回答

使用Apache流和Dataframes交互搜索Parquet存储的数据

、、、、

我有大量的数据存储在我的Hadoop上，作为Parquet文件，我使用SparkSQL来交互地接收来自web服务器的查询，并将接收到的查询转换为SQL，以便使用SparkSQL在我的数据上运行。在这个过程中，我需要运行几个SQL查询，然后通过合并或减去单个查询的结果返回一些聚合结果。有什么方法可以优化和提高进程的速度，例如，在已经接收到的数据文件上运行查询，而不是整个数据库？

浏览 1提问于2015-09-28得票数 0

回答已采纳

1回答

合并减少整个阶段的并行性(火花)

、

有时候，星火“优化”一个数据的计划，以一种低效的方式。请考虑星火2.1中的以下示例(也可在Spark 1.6中转载)：.withColumn("udfResult",expensiveUD

浏览 2提问于2017-06-12得票数 20

回答已采纳

1回答

如何在hadoop中一次处理多个文本文件进行分析

、、、、

我有很多小文件，比如说50000多份。我需要一次处理这些文件，使用map约简概念来生成一些基于输入文件的分析。请建议我这样做，同时也请告诉我如何使用hdfs将这个小文件合并成一个大文件。

浏览 5提问于2014-12-17得票数 0

回答已采纳

1回答

hadoop中的小文件

我正在尝试合并hdfs上的小文件。这只是为了历史目的，如果需要的话，大型文件将被分解并运行在创建hadoop表的数据的过程中。是否有办法简单地做到这一点？例如，第一天接收100个小文件，合并成一个文件，然后第二天将更多的文件添加/追加到以前创建的文件中，等等.

浏览 0提问于2017-09-25得票数 0

回答已采纳

2回答

在SSIS中最快加载2000文件的最佳方法

、、、

我目前正在优化一个SSIS包，该包在运行时处理大约2000个文件，并将其加载到ETL表中。这是一个简单的foreach循环，将fastload加载到netezza表中。显然，这需要相当长的时间，主要是因为每次加载一个文件时，都需要执行一些其他审计步骤，然后才能直接进入下一个文件。我尝试使用nzload，但它没有太大变化，因为文件的实际加载速度很快，只是1个文件x 2000的整个循环很多，这就引出了我的问题：有没有一种简单的方法可以把它分成4个流？所有的文件都位于一个目录中(它们是txt文件)，并且都有一个整数结尾。例如，命名约定为File1607120001，结束数字将递增(下一步将是Fil

浏览 2提问于2016-07-19得票数 0

1回答

Nifi内容存储库未清理，并随着时间的推移不断累积

我混合了小文件和大文件，并且正在合并文件以在流中创建大文件。我可能遇到了一个错误，https://issues.apache.org/jira/browse/NIFI-6150可能在下面提到的三种情况下都不起作用： 1)既有小文件又有大文件。2)合并小文件创建大文件。我有几个大文件，只有在重新启动后才会出现。 3)在流文件离开流之后，合并内容不会失败地保留在流文件上几天。此Nifi的数据流为每天24 TB，重新启动会导致巨大的延迟。

浏览 23提问于2020-05-02得票数 3

1回答

多个小文件作为map reduce的输入

、、、、

我有很多小文件，比如说超过20000个。我想节省花在映射器初始化上的时间，那么是否可以只使用500个映射器，每个映射器处理40个小文件作为其输入？顺便说一句，我知道我应该合并这些小文件，这一步也是必要的。

浏览 2提问于2012-07-13得票数 2

1回答

Delta表合并给多个条件的错误

、、、

我在delta表中遇到了合并数据帧的两个变体：deltaTablePref.alias('ap') \ .merge( updDf.alias('updates'), \

浏览 14提问于2022-04-09得票数 2

1回答

如何使用python将文件划分为多个文件

、、

我有一个视频文件，我需要将分为几个大小为256 in 的较小文件，并将所有文件名保存在一个文本文件中，然后我需要读取所有的小文件，将它们合并到原始文件中。在python中可以这样做吗？

浏览 2提问于2016-10-08得票数 0

回答已采纳

1回答

如何始终将单元查询文件输出限制在单个文件中

、、、

我使用下面的查询创建了一个单元表，并使用下面提到的第二个查询，每天将数据插入到这个表中。(TP_Silent INT,server_date dateFIELDS TERMINATED BY ','LOCATION 'hdfs://hdfsadlproduction/user/DB/Report/efficacy'

浏览 0提问于2018-03-19得票数 0

回答已采纳

1回答

多向合并与双向合并

、、

当我们对一个大文件执行操作时，我们将其拆分成小文件，对它们进行排序，然后将它们合并回一个大的排序文件。我想知道哪种方法更好？为什么？

浏览 7提问于2012-08-04得票数 10

回答已采纳

2回答

perl，unix:将数千个小文件合并为一个文件的最快方法

、

将数千个小文件合并为一个文件的最快方法是什么？谢谢

浏览 1提问于2011-05-27得票数 0

回答已采纳

2回答

如何在spark中减少多个小文件加载时间

、、

在给定的HDFS位置上，我有多个parquet格式的小文件(对于给定的月份，计数是递增的，因为我们在给定的月份内每天接收两个或更多的文件)。当我尝试从SPARK 2.1中的HDFS位置读取文件时，读取这些文件所用的时间会更长，并且随着更多小文件被添加到给定位置，读取这些文件所需的时间也会增加。是否有其他格式或过程可以一次读取所有小文件，以便我可以减少读取小文件的时间。注意: 1)尝试创建一个程序，可以合并所有的小文件到一个单一的文件，将添加额外的处理，我的所有SLA，以完成我的过程，所以

浏览 1提问于2018-01-05得票数 0

2回答

解析数百万个小型XML文件

、、、

我有1000万个小型XML文件(300.i 500.i)，我使用Mapreduce中Mahaout的XML输入格式读取数据，我使用SAX Parser进行解析。但是处理是非常slow.will的，使用输入文件的压缩(Lzo)有助于提高性能?每个文件夹包含80-90k xml文件，当我启动该进程时，它会为每个file.is运行映射器，有什么方法可以减少映射器的使用吗？

浏览 1提问于2015-09-16得票数 0

回答已采纳

1回答