首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >当拼图使用Snappy算法而不是gzip时,将拼花数据写入hive的spark作业已经停留在最后一个任务中。

当拼图使用Snappy算法而不是gzip时,将拼花数据写入hive的spark作业已经停留在最后一个任务中。
EN

Stack Overflow用户
提问于 2017-07-25 16:46:10
回答 1查看 522关注 0票数 0

我正在写一个从DataFrame到Hive的拼图文件。当我使用snappy作为拼图压缩算法时,我可以看到除了1个任务之外的所有任务都快速完成了写作阶段(例如30/31)。最后一项任务需要很长时间才能完成,因为有很多gc过程。

当我使用gzip作为拼图压缩算法时,一切都会好起来的。

我想知道两种压缩算法的区别。

EN

回答 1

Stack Overflow用户

发布于 2017-07-25 20:15:17

Hadoop是由自然支持的。gzip基于DEFLATE 算法,该算法是LZ77和霍夫曼编码的组合。

GZIP压缩使用比Snappy更多的CPU资源,但提供更高的压缩比。

GZip通常是通过infrequently.访问的cold data的good选择

Snappy是访问频繁的热数据的较好选择。

Snappy格式是可拆分,但GZip不是。可分割性与HBase数据无关。

参考:Data Compression in Hadoop

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45298236

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档