腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
合并
SparkSQL
中的
小文件
?
、
我正在使用
SparkSQL
运行一个火花应用程序。如何
合并
小文件
?我知道.repartition和.coalesce,但这不能用
SparkSQL
来完成。
浏览 2
提问于2018-10-11
得票数 0
2
回答
如何
合并
sparksql
保存在hive上的
小文件
?
、
配置单元的输出hdfs文件包含太多
小文件
。如何在保存到配置单元时
合并
它们?myDf.write.format("orc").partitionBy("datestr").insertInto("myHiveTable") 当有100个任务时,它将产生100个
小文件
。
浏览 11
提问于2016-08-29
得票数 1
1
回答
在火花放电图逻辑中使用火花not
、
、
我有很多
小文件
。我想把它们装入一个RDD中。然后映射到它们上,并行地执行对这些文件的算法。该算法需要从HDFS/Hive表中获取数据。当我使用
SparkSQL
获取数据时,会得到以下错误: pickle.PicklingError:无法序列化对象:异常:似乎您试图从广播变量、操作或转换引用SparkContext。
SparkSQL
使用SQLContext,它是SparkContext的包装器。这是否意味着我不能在对工作人员执行的代码中使用
SparkSQL
?但那样的话,它就太有限了。下面是我使用的示例PySpark
浏览 2
提问于2017-10-02
得票数 1
1
回答
星星之火-SQL查询提示以提高连接性能
、
我最近被介绍给
SparkSQL
。我们使用Spark 2.4。最近,我发现
SparkSQL
查询支持其连接策略的以下提示: 不幸的是,我还没有找到任何在线材料来详细讨论这些提示及其应用场景。
浏览 3
提问于2020-06-08
得票数 1
3
回答
如何将HDFS
小文件
合并
为一个大文件?
、
、
、
我有从Kafka流生成的
小文件
的数量,所以我喜欢
合并
小文件
到一个单一的文件,但这种
合并
是基于日期,即原始文件夹可能有以前的文件数量,但我只喜欢
合并
给定的日期文件到一个单一的文件。 有什么建议吗?
浏览 9
提问于2018-07-26
得票数 0
1
回答
使用Apache流和Dataframes交互搜索Parquet存储的数据
、
、
、
、
我有大量的数据存储在我的Hadoop上,作为Parquet文件,我使用
SparkSQL
来交互地接收来自web服务器的查询,并将接收到的查询转换为SQL,以便使用
SparkSQL
在我的数据上运行。在这个过程中,我需要运行几个SQL查询,然后通过
合并
或减去单个查询的结果返回一些聚合结果。 有什么方法可以优化和提高进程的速度,例如,在已经接收到的数据文件上运行查询,而不是整个数据库?
浏览 1
提问于2015-09-28
得票数 0
回答已采纳
1
回答
合并
减少整个阶段的并行性(火花)
、
有时候,星火“优化”一个数据的计划,以一种低效的方式。请考虑星火2.1中的以下示例(也可在Spark 1.6中转载):.withColumn("udfResult",expensiveUD
浏览 2
提问于2017-06-12
得票数 20
回答已采纳
1
回答
如何在hadoop中一次处理多个文本文件进行分析
、
、
、
、
我有很多
小文件
,比如说50000多份。我需要一次处理这些文件,使用map约简概念来生成一些基于输入文件的分析。 请建议我这样做,同时也请告诉我如何使用hdfs将这个
小文件
合并
成一个大文件。
浏览 5
提问于2014-12-17
得票数 0
回答已采纳
1
回答
hadoop中的
小文件
我正在尝试
合并
hdfs上的
小文件
。这只是为了历史目的,如果需要的话,大型文件将被分解并运行在创建hadoop表的数据的过程中。是否有办法简单地做到这一点?例如,第一天接收100个
小文件
,
合并
成一个文件,然后第二天将更多的文件添加/追加到以前创建的文件中,等等.
浏览 0
提问于2017-09-25
得票数 0
回答已采纳
2
回答
在SSIS中最快加载2000文件的最佳方法
、
、
、
我目前正在优化一个SSIS包,该包在运行时处理大约2000个文件,并将其加载到ETL表中。这是一个简单的foreach循环,将fastload加载到netezza表中。显然,这需要相当长的时间,主要是因为每次加载一个文件时,都需要执行一些其他审计步骤,然后才能直接进入下一个文件。我尝试使用nzload,但它没有太大变化,因为文件的实际加载速度很快,只是1个文件x 2000的整个循环很多,这就引出了我的问题: 有没有一种简单的方法可以把它分成4个流?所有的文件都位于一个目录中(它们是txt文件),并且都有一个整数结尾。例如,命名约定为File1607120001,结束数字将递增(下一步将是Fil
浏览 2
提问于2016-07-19
得票数 0
1
回答
Nifi内容存储库未清理,并随着时间的推移不断累积
我混合了
小文件
和大文件,并且正在
合并
文件以在流中创建大文件。我可能遇到了一个错误,https://issues.apache.org/jira/browse/NIFI-6150可能在下面提到的三种情况下都不起作用: 1)既有
小文件
又有大文件。2)
合并
小文件
创建大文件。我有几个大文件,只有在重新启动后才会出现。 3)在流文件离开流之后,
合并
内容不会失败地保留在流文件上几天。 此Nifi的数据流为每天24 TB,重新启动会导致巨大的延迟。
浏览 23
提问于2020-05-02
得票数 3
1
回答
多个
小文件
作为map reduce的输入
、
、
、
、
我有很多
小文件
,比如说超过20000个。 我想节省花在映射器初始化上的时间,那么是否可以只使用500个映射器,每个映射器处理40个
小文件
作为其输入?顺便说一句,我知道我应该
合并
这些
小文件
,这一步也是必要的。
浏览 2
提问于2012-07-13
得票数 2
1
回答
Delta表
合并
给多个条件的错误
、
、
、
我在delta表中遇到了
合并
数据帧的两个变体:deltaTablePref.alias('ap') \ .merge( updDf.alias('updates'), \
浏览 14
提问于2022-04-09
得票数 2
1
回答
如何使用python将文件划分为多个文件
、
、
我有一个视频文件,我需要将分为几个大小为256 in 的较
小文件
,并将所有文件名保存在一个文本文件中,然后我需要读取所有的
小文件
,将它们
合并
到原始文件中。 在python中可以这样做吗?
浏览 2
提问于2016-10-08
得票数 0
回答已采纳
1
回答
如何始终将单元查询文件输出限制在单个文件中
、
、
、
我使用下面的查询创建了一个单元表,并使用下面提到的第二个查询,每天将数据插入到这个表中。(TP_Silent INT,server_date dateFIELDS TERMINATED BY ','LOCATION 'hdfs://hdfsadlproduction/user/DB/Report/efficacy'
浏览 0
提问于2018-03-19
得票数 0
回答已采纳
1
回答
多向
合并
与双向
合并
、
、
当我们对一个大文件执行操作时,我们将其拆分成
小文件
,对它们进行排序,然后将它们
合并
回一个大的排序文件。我想知道哪种方法更好?为什么?
浏览 7
提问于2012-08-04
得票数 10
回答已采纳
2
回答
perl,unix:将数千个
小文件
合并
为一个文件的最快方法
、
将数千个
小文件
合并
为一个文件的最快方法是什么? 谢谢
浏览 1
提问于2011-05-27
得票数 0
回答已采纳
2
回答
如何在spark中减少多个
小文件
加载时间
、
、
在给定的HDFS位置上,我有多个parquet格式的
小文件
(对于给定的月份,计数是递增的,因为我们在给定的月份内每天接收两个或更多的文件)。当我尝试从SPARK 2.1中的HDFS位置读取文件时,读取这些文件所用的时间会更长,并且随着更多
小文件
被添加到给定位置,读取这些文件所需的时间也会增加。是否有其他格式或过程可以一次读取所有
小文件
,以便我可以减少读取
小文件
的时间。注意: 1)尝试创建一个程序,可以
合并
所有的
小文件
到一个单一的文件,将添加额外的处理,我的所有SLA,以完成我的过程,所以
浏览 1
提问于2018-01-05
得票数 0
2
回答
解析数百万个小型XML文件
、
、
、
我有1000万个小型XML文件(300.i 500.i),我使用Mapreduce中Mahaout的XML输入格式读取数据,我使用SAX Parser进行解析。但是处理是非常slow.will的,使用输入文件的压缩(Lzo)有助于提高性能?每个文件夹包含80-90k xml文件,当我启动该进程时,它会为每个file.is运行映射器,有什么方法可以减少映射器的使用吗?
浏览 1
提问于2015-09-16
得票数 0
回答已采纳
1
回答
为什么仅在单元格中的映射作业会导致单个输出文件
、
、
当我执行以下查询时,我只得到一个文件作为输出,尽管我有8个映射器和0个减法器。调用了8个映射器,没有还原剂阶段。在table_2的位置上只有一个文件,不应该有8个文件,因为我们有8个映射器和0个减速器。
浏览 2
提问于2017-11-13
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
SparkSQL内核剖析
Flink SQL FileSystem Connector 分区提交与自定义小文件合并策略
舍弃Hive、拥抱SparkSQL,有赞的大数据实践
Spark之SparkSQL
从0到1认识 SparkSQL
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券