在大佬的推荐下,我去了解了一下布隆过滤器,最后初步使用布隆过滤器+Redis+Hbase完成了一个版本,效率和空间占用都还可以....检索时,我们只要看看这些点是不是都是1就(大约)知道集合中有没有它了:如果这些点有任何一个0,则被检元素一定不在;如果都是1,则被检元素很可能在。这就是布隆过滤器的基本思想。...假设我们现在获得了一个size=10000的布隆过滤器,分配给我们的其实是10000个二进制位,假设k=8,那么当新添加huyanshi这个元素时,通过8个不同的hash函数,可以拿到8个index值,...当我们想要检索huyanshi是否存在时,再次用8个hash函数获得8个index,如果这8个index的位置都为1,那么这个元素就很可能存在.如果其中有一位为0,则该元素一定不存在....我在项目中使用了google guava项目下的BloomFilter,挺好用的.