腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
将
数据
插入
存储
桶
时
合并
hive
创建
的
小文件
?
、
、
、
、
我有一个包含呼叫
数据
记录(CDR)
的
配置单元表。我在电话号码上对表进行了分区,在call_date上对表进行了
存储
桶
操作。现在,当我在
hive
中
插入
数据
时
,过时
的
call_date会在我
的
存储
桶
中
创建
小文件
,这会导致名称节点元
数据
增加和性能降低。有没有办法把这些
小文件
合并
成一个。
浏览 26
提问于2019-09-16
得票数 1
回答已采纳
1
回答
S3中带有混合日期
的
单元日期分区表流
数据
、
、
、
、
我有丰富
的
经验处理
Hive
分区表。我使用
Hive
2.x,我面试了一个大
数据
解决方案架构师
的
角色,我被问到了以下问题。 问题:,您将如
何在
按日期分区
的
Hive
表中摄取流
数据
?流
数据
首先
存储
在S3
桶
中,然后加载到
Hive
中。虽然S3
桶
名有一个日期标识符(
如
S3_ingest_YYYYMMDD ),但内容可能有超过一个日期
的<
浏览 1
提问于2019-12-21
得票数 1
回答已采纳
1
回答
蜂箱汤匙和水桶
、
、
我现在正在学习
桶
,我
的
任务是
创建
一个由2个
桶
组成
的
Hive
表,然后将至少5条记录放入该表中。我不知道
的
是以下内容--我必须运行这个查询:当我运行它
时
,它返回0行,我不知道为什么我试着在网上查一下,但没有找到确切
的
答案。如果我用表中
的
其他字段替换id,它将返回
桶
中
浏览 4
提问于2020-04-13
得票数 1
回答已采纳
3
回答
两个表
的
Hive
- Efficient连接
、
、
、
我正在连接
Hive
中
的
两个大表(一个超过10亿行,一个大约1亿行),如下所示:我已经以相同
的
方式对这两个表进行了
存储
桶
操作,根据id
将
每个表聚集为100个
存储
桶
,但是查询仍然需要很长时间。
浏览 4
提问于2013-11-26
得票数 15
回答已采纳
2
回答
如何
合并
sparksql保存在
hive
上
的
小文件
?
、
像下面的代码一样,
将
一个dataframe
插入
一个
hive
表中。配置单元
的
输出hdfs文件包含太多
小文件
。如
何在
保存到配置单元
时
合并
它们?myDf.write.format("orc").partitionBy("datestr").insertInto("myHiveTable") 当有100个任务
时
,它将产生100个
小文件
。在
数据
帧上使
浏览 11
提问于2016-08-29
得票数 1
3
回答
对
小文件
不起作用
的
合并
属性
、
我试图
将
数据
插入
创建
大量
小文件
的
动态分区表中,我在下面设置了单元格属性,但我仍然可以看到分区文件夹中
的
小文件
,每个任务
的
大小或avgfile大小似乎都适合我,因为分区文件夹中
的
文件高于我给出
的
每个任务
的
大小任何帮助都将非常感谢
hive
.merge.mapfiles=true;
hive
合并
mapredfiles = true <
浏览 3
提问于2016-04-05
得票数 3
回答已采纳
2
回答
哪种文件格式更适合在配置单元中
存储
更多数量
的
小文件
?为什么?
、
如果我有更多
的
小文件
需要
存储
在配置单元表中。哪种文件格式
的
存储
方式更好?为什么?
浏览 0
提问于2019-06-04
得票数 1
2
回答
作为两个文件中
的
一个文件
存储
到hdfs
、
我是Hadoop
的
新手。提前谢谢你。
浏览 0
提问于2019-02-07
得票数 0
1
回答
配置单元中排序
合并
存储
桶
映射联接
的
输入
、
、
、
、
我想使用以下选项执行排序-
合并
连接,
如
配置单元手册()中所述set
hive
.optimize.bucketmapjoin = true;两个表都必须在join列上进行
存储
和排序。我
的
问题是-
浏览 2
提问于2013-07-11
得票数 1
回答已采纳
1
回答
如何始终将单元查询文件输出限制在单个文件中
、
、
、
我使用下面的查询
创建
了一个单元表,并使用下面提到
的
第二个查询,每天
将
数据
插入
到这个表中。TP_Active' THEN 1 ELSE 0 END ) ,fromgroup by ; 问题是,当我
的
insert查询每天执行时,它基本上会在hadoop中
创建
一个新文件。
hive
.enforce.sortmergebucketmapjoin=
浏览 0
提问于2018-03-19
得票数 0
回答已采纳
2
回答
要在配置单元中填充
存储
区表,请执行以下操作
、
属性设置为true;设置
hive
.enforce.bucketing=true;
将
数据
本地inpath '/home/mainnode/u.user‘加载到表userinfobucketed中; Que
浏览 0
提问于2014-12-11
得票数 1
1
回答
如何
将
分区
数据
合并
到一个大文件中?
、
、
当我加载
数据
时
,我
将
创建
24个文件。我要把这24个文件
合并
到一个文件中。有人能给我建议解决办法吗?
浏览 4
提问于2017-12-22
得票数 0
1
回答
在配置单元中
创建
存储
桶
文件
时
、
、
、
在Bucketing中,
存储
桶
文件是在配置单元
的
哪个阶段
创建
的
?( country)row format delimitedstored as textfile ; 如果我有20个
存储
桶
,只有4行,
将
创建
多少个文件?
浏览 0
提问于2017-02-28
得票数 0
8
回答
在
Hive
中划分和
存储
表有什么区别?
、
我知道这两个操作都是在表中
的
一个列上执行
的
,但是每个操作有什么不同。
浏览 0
提问于2013-10-02
得票数 152
回答已采纳
1
回答
为什么仅在单元格中
的
映射作业会导致单个输出文件
、
、
当我执行以下查询
时
,我只得到一个文件作为输出,尽管我有8个映射器和0个减法器。 create table table_2 as select * from table_1.在table_2
的
位置上只有一个文件,不应该有8个文件,因为我们有8个映射器和0个减速器。
浏览 2
提问于2017-11-13
得票数 0
回答已采纳
2
回答
通过sparkSQL
创建
蜂窝
、
、
、
我对蜂巢中
的
扣环有一个疑问。我已经
创建
了一个临时表,该表在列关键字上
存储
桶
。当我检查这个表
的
基目录
时
,它显示了前缀为part_*
的
文件名。但是,当我通过另一个表手动
将
数据
插入
到这个表中
时
,我
浏览 1
提问于2018-08-02
得票数 5
3
回答
为HDFS中
的
每个
插入
创建
多个
小文件
、
、
、
、
以下是已经实现
的
到目前为止一切都很顺利。我面临
的
问题只有一个,当我
的
应用程序
将
数据
插入
到
Hive
表中
时
,它
创建
了包含每个文件行
数据
的
小文件
。Kafka使用者循环通过处理每一行中<e
浏览 5
提问于2015-08-19
得票数 3
2
回答
蜂箱和分区
、
、
我们应该根据什么来缩小范围,无论是使用分区还是在蜂巢中
的
一组列上使用
桶
?假设我们有一个庞大
的
数据
集,其中有两个列是最常被查询
的
--所以我很明显
的
选择是基于这两列
创建
分区,但如果这会导致在大量目录中
创建
大量
的
小文件
,那么基于这些列对
数据
进行分区是一个错误
的
决定,并且可能是一个更好
的
选择我们是否可以定义一种方法,我们可以用它来决定我们应该采用
的
是<e
浏览 3
提问于2015-12-04
得票数 0
回答已采纳
3
回答
在hadoop中
存储
多个
小文件
的
最佳位置是什么?
、
、
、
、
我将有多个大小约为10 or
的
小文本文件,弄不清楚这些文件在HBase或HDFS中
的
存储
位置。什么是优化
的
存储
?因为要
存储
在HBase中,我需要先解析它,然后根据某个行键保存它。在HDFS中,我可以直接
创建
一个路径并将该文件保存在该位置。但是直到现在,不管我读到了什么,它都说你不应该有多个
小文件
,而应该
创建
更少
的
大文件。但是我不能
合并
这些文件,所以我不能用
小文件
创建</em
浏览 6
提问于2016-06-23
得票数 0
回答已采纳
1
回答
配置单元中
的
排序表(ORC文件格式)
、
、
在确保利用
Hive
表中
的
排序
数据
时
,我遇到了一些困难。(使用ORC文件格式)CLUSTERED BY (trade_id) SORTED BY (trade_id, time) INTO 8 BUCKETS这意味着每次我对这个表进行查询
时
,
数据
都会通过trade_id在不
浏览 1
提问于2018-08-07
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
【大数据】Hive 小文件治理和 HDFS 数据平衡讲解
Hive 3的ACID表
Hive 原理实践
大数据入门基础系列之浅谈Hive的桶表
Flink+ 数据湖 Iceberg 的体验
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券