社区首页 >专栏 >数据压缩 —— 一种基于LZ4算法的硬件加速的快速无损压缩

数据压缩 —— 一种基于LZ4算法的硬件加速的快速无损压缩

繁依Fanyi

发布于 2023-05-07 09:52:00

2.6K0

背景

近年来，随着物联网等场景的不断发展，一些问题也逐渐的暴露了出来，就比如嵌入式设备上的 CPU时钟频率，电源等资源都是有限的；对于部分设备来说可能换个时钟频率高的时钟、换个大的电池确实可以解决问题，但对于手机这种嵌入式移动设备来说，像是要做到便携、轻薄等等要求，体积就被限制住了，电源也因此被限制住了。

因此，需要一种基于硬件的压缩方法来解决这个问题。大多数基于字典的自适应压缩方法都起源于 Lempel-Ziv 算法，就比如最快的压缩算法之一 LZ4。作者也就对 LZ4 进行了改进，并根据改进后的 LZ4 的压缩提出了一种硬件架构。

LZ4 分析

LZ4 是 LZ77 的一个变种算法，是 Collet 在2011年提出的固定的（fixed），面向字节（byte-oriented）的算法。
LZ4 的伸缩数据如图所示，它由 令牌（Token） 、 字面量长度（Literal length） 、 偏移量（Offset） 和 匹配长度（Match length） 组成。
LZ4 和 LZ77 类似，它有一个滑动窗口，由一个搜索缓冲区和一个向前查找缓冲区组成。
LZ4 搜索之前没有压缩数据流中的重复数据，并用索引替换它。
LZ4 通过哈希表来匹配数据，从而提高了压缩速度。

令牌（Token）

令牌（Token） 长一个字节，其中前4个字节为 字面量长度（Literal Length），其后四个字节为 匹配长度（Match Length）。

Token[3:0] 表示 匹配长度，表示 0 ~ 15 的文字长度。
Token[7:4] 表示 字面量长度，是比较不重要的位，匹配长度从0 ~ 15。

Token [7:4] 的值如果为0，则代表没有文字。
Token [7:4] 的值如果为15，则表示文字长度必须有从 0~255 的额外字节来表示字面量的完整长度。
Token [3:0] 的如果值为0，则表示最小匹配长度为4，称为min match。
因此，Token [3:0] 的值从0到15意味着匹配长度值从4到19。如果Token[3:0]的值为15，则匹配长度中有更多字节。

字面量长度（Literal Length）

当Token[7:4]值为 15 时，字面值长度（Literal Length）就是额外的字节。
如果字面量长度为 0~254，则没有更多的字节。如果字面量长度是 255，在下一个字面量长度中有产生更多的字节。

偏移量（Offset）

偏移量（Offset）占用2字节，采用little-endian格式，它表示要复制的匹配的位置。
偏移值为 1 表示当前位置为 1 byte。最大偏移量为 65535。

匹配长度（Match Length）

匹配长度（Match Length）类似于上面说到的字面量长度（Literal Length）。
当Token[3:0]达到可能的最高值 15 时，额外的字节被添加到匹配长度中。

总结

LZ4 总是为偏移量（Match Length）分配 2字节，但其实这对压缩比的性能影响不大。
LZ4算法最初是为了在一般处理器上进行软件实现而提出的，因此在一些硬件上实现 LZ4 存在一定的约束。

改进的 LZ4

本文作者改进了数据格式的序列和哈希计算。

通过指定压缩单元的大小，可以优化哈希表的大小。
将压缩单元的大小设置为 4KB，可以为内存页进行优化并节省内部内存。

数据格式

这里作者改变了 LZ4 的首部（Header）和偏移量（Offset），下图分别是改进后的 LZ4 与 LZ4 的格式。

Header	Token	Literal	Length Literals	Offset	Match Length
2 Bytes	1 Byte	0-n Bytes	0-L Bytes	1-2 Bytes	0-n Bytes

Token	Literal Length	Literals	Offset	Match Length
1 Byte	0-n Bytes	0-L Bytes	2 Bytes	0-n Bytes

首部（Header）

头部位于每个压缩单元的开头，包含压缩大小（Compressed Size）和原始标志（Raw Flag）。
如果压缩后的数据大小大于原始数据大小，则原始标志（Raw Flag） 则被标记为 1，原始数据将被添加在首部（Header）之后，压缩符号将不被添加，解压器也不需要解压该压缩单元。
在数据根本没有压缩的最坏情况下，原始标志（Raw Flag）使解压缩程序更快。
在最坏的情况下，压缩单元大小被添加到原始数据的头部大小中。

偏移量（Offset）

偏移量（Offset）由大小标志（Size Flag）和偏移量大小（Offset Size）组成。
大小标志（Size Flag）是最重要的位。如果大小标志值为 0，偏移量大小则使用 7 bit，即{offset [7]， offset[6:0]}。
如果大小标志值为 1，偏移量大小则使用 15 bit，即{offset [15]， offset[14:0]}。
偏移量大小表示匹配的位置，最大偏移大小值为32768。
可变偏移字节长度使我们的方法比LZ4有更好的压缩比。

哈希计算

哈希函数的目的 是将任意大小的数据映射到固定大小的数据。对于匹配检测，使用哈希表的搜索算法要比其他算法快得多。
理想的哈希表的大小是输入数据位乘以压缩单位字节的大小。 但是，由于哈希表的大小是有限的，因此哈希计算计算输入的比特数要比输入的比特数小。
哈希计算的性能取决于不同的输入得到相同结果的频率。
LZ4的哈希计算算法基于Fibonacci哈希原理，计算公式如下：

上述公式中的IN为32位值，LZ4的哈希计算公式在硬件上实现复杂，并且计算周期长。于是作者改进了该哈希计算公式，公式如下：

这里压缩单元大小为4KB，改进后的公式被 12 bit 屏蔽，仅使用位操作就可以将32位输入映射到12位。因此，一个很小的硬件资源就足以计算改进后的哈希计算公式，并且只需要一两个周期。

建议的硬件架构

总模块

这里作者提出了一种建议使用的硬件架构。它主要由核心模块(压缩模块和解压缩模块)和高级微控制器总线体系结构（AMBA）接口组成，实现应用处理器的互连。
核心模块通过高级外设总线（APB）与处理器进行控制信号通信。输入数据和输出数据通过高级可扩展总线（AXI）处理。
下图为总体的硬件架构：

下表描述了是各个模块的数量，面积以及总面积。

模块	模块数量	面积	总面积(mm2)
Compress	1	0.01320	0.01320
Decompress	1	0.01345	0.01345
Hash Table	2	0.00515	0.01029
SRAM	8	0.00652	0.05215
AXI(DMA)	1	0.01187	0.01187
APB	1	0.00133	0.00133

压缩模块

压缩模块主要由SRAM控制组件、哈希计算组件、字节匹配组件和流生成组件组成，下图为压缩模块的架构图。

为了避免数据输入的瓶颈，压缩模块将输入数据写入8个独立的SRAM。
之后压缩机从SRAM移位寄存器读取128 bit 数据。
对于每个 4 byte 的输入数据，哈希计算模块计算哈希值，读取哈希表来比较和更新索引。
如果在哈希表中搜索计算出来的哈希值，则移动到该位置并开始匹配字节。当匹配长度大于4时，因为哈希值已经从前面的文字计算出来了，此时可以跳过哈希计算。
压缩单元最后一次数据处理完毕后，压缩机检查压缩尺寸是否大于原始尺寸。如果大于原始尺寸，压缩模块将原始标志（Raw Flag） 设置到首部（Header）并输出原始数据。
当压缩内存数据时，对于未压缩的页，只将页头写入输出。在这种情况下，CPU读取头中的 原始标志（Raw Flag） ，解压时执行memcpy