腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
hive
.groupby.skewindata是否依赖于
hive
.optimize.skewjoin?
、
、
、
根据蜂巢模板:但我不明白
hive
.groupb
浏览 0
提问于2018-02-12
得票数 2
回答已采纳
3
回答
如何使用
Hive
处理
倾斜
数据
?
、
、
、
我正在
hive
中做join操作。但是当减速机达到99%时,减速机就卡住了。 然后我发现表中有不对称的
数据
。例如。在表A中有100万个
数据
,表B有10k个only.In,表A连接的列有80%的值是相同的,其余的值是其他的。所以减蜂器固定在那个值上。如何对这类
数据
进行连接操作?
浏览 2
提问于2016-03-22
得票数 1
1
回答
oozie协调器中的配置单元查询
、
、
我使用oozie协调器运行了10个
hive
脚本,它在reduce阶段的一个脚本中以相同的百分比被卡住,没有任何错误,这些脚本是简单的insert语句,我在命令行上测试了它们,它们工作正常,我如何调试它?
浏览 0
提问于2013-09-22
得票数 0
1
回答
从非分区单元表到分区单元表的PySpark
数据
加载的性能优化
、
、
、
我们有一个要求,从一个非分区的work_db.customer_tbl外部蜂窝表通过PySpark从一个分区的外部的蜂巢表通过PySpark摄取
数据
,以前是通过
hive
查询完成的。因此,我们有一个简单的PySpark脚本,它使用一个插入查询(与前面使用的单元查询相同)来使用spark.sql()命令摄取
数据
。但是,我们有一些严重的性能问题,因为我们在摄入后试图摄入的表大约有3000分区,和每个分区大约有4MB的
数据
,除了最后一个分区大约4GB。总表大小接近15 is。
浏览 2
提问于2021-03-25
得票数 0
1
回答
不为
倾斜
表创建单独的目录
、
我正在尝试创建一个
倾斜
的表,但它显然不起作用。2019, month = 10, day=05, hour=18)select查询返回国家名称和一些相关的字符串
数据
因此,根据我在“country”列上指定的
倾斜
方式,我期望insert语句会导致为美国和巴西创建单独的目录( select查询会以USA和巴西的形式返回足够多的国家行),但这显然没有发生。我看到
hive
创建了一个名为'
HIVE
_DEFAULT_LI
浏览 1
提问于2019-10-06
得票数 0
2
回答
Hive
中的偏斜表
、
、
我正在学习
hive
,偶然发现了一些
倾斜
的表格。帮我理解一下。我们如何创建
倾斜
的表? 它对性能有何影响?
浏览 1
提问于2013-09-12
得票数 8
1
回答
reduce步骤似乎停留在99%
、
、
INFO : 2015-09-10 09:51:43,209 Stage-1 map = 100%, reduce = 99%, Cumulative CPU 437512.26 sec output format: org.apache.hadoop.
hive
.ql.io.HiveSequenceFileOutp
浏览 0
提问于2015-09-10
得票数 2
1
回答
蜂箱
倾斜
连接问题
、
、
1.何时使用公共联接来处理
数据
,因为只有在设置blow属性之后才能看到map联接。
hive
.optimize.skewjoin=true;set
hive
.mapjoin.smalltable.filesize=2; 集 2.为什么不
倾斜
连接与左连接?
浏览 2
提问于2019-11-15
得票数 0
1
回答
如何使用盐化技术连接具有
倾斜
数据
的
数据
帧
、
、
我是spark的新手,正在尝试理解如何在spark中处理
倾斜
的
数据
。我已经创建了两个表employee和department。员工对其中一个部门的
数据
进行了
倾斜
。SparkSession.builder.appName("skewTestSpark").config("spark.sql.warehouse.dir", '/user/
hive
浏览 24
提问于2020-09-06
得票数 1
1
回答
大容量
倾斜
数据
集上的
Hive
排序操作
、
、
、
、
我正在Hortonworks 2.6.5上处理一个大小约为3TB的大型
数据
集,该
数据
集的布局非常简单。
数据
的层次结构如下: -Warehouse -Product Type我们在上面的层次结构中有30个国家的交易
数据
,每个国家都有超过200个仓库,单个国家美国贡献了整个
数据
集的75%左右。问题: 1)对于每个仓库的上述
数据
集,我们有事务日期列(tra
浏览 18
提问于2019-08-01
得票数 2
2
回答
蜂巢左外连接长时间运行
、
、
、
、
Hortonworks HDP 2.3.0 -蜂巢0.14T1 left outer join on t2 ( t1.col3 = t2.col3FYI -如果T2的
数据
大小为9k或1GB,则查询完成。
浏览 1
提问于2016-05-23
得票数 2
2
回答
火花如何将分区分配给执行器
、
、
我有一个性能问题,在分析了Spark之后,我发现了
数据
的
倾斜
性: 一开始我认为分区分布不均匀,所以我分析了每个分区的行数,但这似乎很正常(没有异常值):
hive
_query = """SELECT ...FROM <multiple joined
hive
tables>""" df = sqlContext.sql(
hive
_query).c
浏览 1
提问于2021-04-16
得票数 3
回答已采纳
1
回答
为什么在这个MapReduce中最后的减少步骤非常慢?(HiveQL,HDFS MapReduce)
、
、
、
、
一些背景信息:[09:05:53] [INFO] [dku.utils] - INFO : set
hive
.exec.reducers.bytes.per
浏览 0
提问于2018-06-27
得票数 7
回答已采纳
1
回答
向左连接的蜂箱
倾斜
缓解
、
、
、
、
我有一个典型的影响左外连接性能的
倾斜
问题(左表“大”,右表“小”)。
倾斜
的键主要是空的(很长的路),其次是"keyX“。我尝试过几种不同的方法: 在我发现的几篇文章中引用的“关键盐析”技术非常有用(3x-4倍的速度)!我刚刚注意到一个非常有希望的特性,您可以在其中使用并使用它来生成一个
倾斜
的优化执行计划。在回到选项
浏览 2
提问于2021-02-18
得票数 1
1
回答
当存在多个斜键时,蜂箱
倾斜
连接优化的详细信息
、
、
有三个问题针对关于
Hive
斜连接优化的一些细节:在中,我们了解了关于蜂巢
倾斜
连接优化的基本思想。但是有一些细节困扰着我:在A.id = B.id上从A连接B中选择B.id默认设置为:
hive
.skewjoin.key= 100000,它通常太小,不适合实际查询。是否可以根据JVM堆大小和斜交表的总行数动态确定斜连接的触发条件?
浏览 4
提问于2014-07-18
得票数 1
2
回答
斜窗口函数&蜂巢源分区?
、
、
、
、
我正在通过星火读取的
数据
是高度
倾斜
的蜂巢表与以下统计数字。spark.conf.set("spark.sql.files.maxPartitionBytes"),处理这个扭曲的蜂巢源的最佳方法是什么?我想避免.repartition()在阅读,因为它增加了另
浏览 1
提问于2019-06-24
得票数 3
1
回答
有15个表连接的蜂巢查询预计将生成10亿条记录,在3个
数据
节点上,每个16 do内存都是正确的方法吗?
、
、
、
、
总计1TB HDD空间3
数据
节点Hadoop版本2.7现在,我启动了一个查询,它连接所有15个表,并在最后一个平面表中选择我需要的列。预计记录将超过15亿。 我已经优化蜂巢,纱,MapReduce引擎,即。从20小时开始,这个查询就在集群/
Hive
/ Tez上运行&在最后一个还原器运行的地方,它达到了90%。90%的比
浏览 1
提问于2016-04-16
得票数 1
回答已采纳
1
回答
星星之火SQL -
Hive
“无法覆盖表”的解决办法
、
、
、
、
我正在使用PySpark和
Hive
开发一个星火集群。对临时表进行tablecheckpoint 保存,然后将
数据
存储在右上。bananaDF = spark.sql("select * from banana") // hundr
浏览 0
提问于2020-08-25
得票数 0
3
回答
蜂巢-重命名与
数据
类型同名的字段
、
、
、
顺便说一句,
Hive
0.12+引入了一种名为timestamp的新
数据
类型。mismatched input 'CHANGE' expecting KW_EXCHANGE near 'mytest' in alter exchange partition 我确信这是因为我的字段名与
数据
类型名称相同
浏览 1
提问于2014-05-01
得票数 4
1
回答
HiveConf of name
hive
.files.umask.value不存在
我遇到了
倾斜
数据
问题,所以我尝试设置
hive
.groupby.shewindata参数来优化它,如下所示 我这里的小纸片..。
Hive
版本: V2.0.0当我尝试时,我得到了以下错误: SLF4J:类路径包含多个SLF4J绑定。org.slf4j.impl.Log4jLoggerFactory 2016-12-28 21:07:10,902警告主conf.HiveConf (HiveConf.java:
浏览 2
提问于2016-12-28
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Hive|如何避免数据倾斜
Spark之数据倾斜
Hive数据模型
Hive的数据装载
走进大数据 数据仓库-Hive
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券