我正在写一个从DataFrame到Hive的拼图文件。当我使用snappy作为拼图压缩算法时,我可以看到除了1个任务之外的所有任务都快速完成了写作阶段(例如30/31)。最后一项任务需要很长时间才能完成,因为有很多gc过程。
当我使用gzip作为拼图压缩算法时,一切都会好起来的。
我想知道两种压缩算法的区别。
发布于 2017-07-25 20:15:17
Hadoop是由自然支持的。gzip基于DEFLATE 算法,该算法是LZ77和霍夫曼编码的组合。
GZIP压缩使用比Snappy更多的CPU资源,但提供更高的压缩比。
GZip通常是通过infrequently.访问的cold data的good选择
Snappy是访问频繁的热数据的较好选择。
Snappy格式是可拆分,但GZip不是。可分割性与HBase数据无关。
参考:Data Compression in Hadoop
https://stackoverflow.com/questions/45298236
复制相似问题