HyperLogLog(HLL)是一种基于概率的数据结构,用于统计集合中不同元素的个数。通常要完成这项工作所需的内存大小与集合中不同元素的个数成正比。不过,有一种使用精度换取空间的做法,也就是使用较小的内存完成工作,但得到的结果会有一定误差。对于reids来说,这个误差小于1%。这个做法的神奇之处在于,无论集合中有多少元素,你也至多只需要12k内存!
从概念上说,HLL的api和sets的api有些类似。在sets中,你可以使用SADD将元素加入集合,再使用SCARD来统计集合中不同元素的个数。 对于HLL来说,你并没有真的将元素加到集合中,而只是保存了一个标识位,所用的api是这样的: - 每当遇到一个新元素,使用PFADD将其加入集合。 - 使用PFCOUNT,获取当前集合中不同元素个数的近似值。
> pfadd hll a b c d
(integer) 1
> pfcount hll
(integer) 4
一个典型的例子是通过HLL统计用户每天搜索不同词条的个数。
reids还可以将不同的HLL进行合并,更多信息请参阅详细文档。
译者注:此特性需要redis 2.8.9及以上版本