Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >如何从10亿数据中快速判断是否存在某一个元素?今天总算知道了

如何从10亿数据中快速判断是否存在某一个元素?今天总算知道了

作者头像
Java程序猿阿谷
发布于 2021-03-04 02:35:53
发布于 2021-03-04 02:35:53
1.3K00
代码可运行
举报
运行总次数:0
代码可运行

前言

Redis 用作缓存时,其目的就是为了减少数据库访问频率,降低数据库压力,但是假如我们某些数据并不存在于 Redis 当中,那么请求还是会直接到达数据库,而一旦在同一时间大量缓存失效或者一个不存在缓存的请求被恶意攻击访问,这些都会导致数据库压力骤增,这又该如何防止呢?

缓存雪崩

缓存雪崩指的是 Redis 当中的大量缓存在同一时间全部失效,而假如恰巧这一段时间同时又有大量请求被发起,那么就会造成请求直接访问到数据库,可能会把数据库冲垮。

缓存雪崩一般形容的是缓存中没有而数据库中有的数据,而因为时间到期导致请求直达数据库。

解决方案

解决缓存雪崩的方法有很多,常用的有以下几种:

  • 加锁,保证单线程访问缓存。这样就不会有很多请求同时访问到数据库。
  • key 值得失效时间不要设置成一样。典型的就是初始化预热数据的时候,将数据存入缓存时可以采用随机时间来确保不会在同一时间有大量缓存失效。
  • 内存允许的情况下,可以将缓存设置为永不失效。

缓存击穿

缓存击穿和缓存雪崩很类似,区别就是缓存击穿一般指的是单个缓存失效,而同一时间又有很大的并发请求需要访问这个 key,从而造成了数据库的压力。

解决方案

解决缓存击穿的方法和解决缓存雪崩的方法很类似:

  • 加锁,保证单线程访问缓存。这样第一个请求到达数据库后就会重新写入缓存,后续的请求就可以直接读取缓存。
  • 内存允许的情况下,可以将缓存设置为永不失效。

缓存穿透

缓存穿透和上面两种现象的本质区别就是这时候访问的数据不但在 Redis 中不存在,而且在数据库中也不存在,这样如果并发过大就会造成数据源源不断的到达数据库,给数据库造成极大压力。

解决方案

对于缓存穿透问题,加锁并不能起到很好地效果,因为本身 key 就是不存在,所以即使控制了线程的访问数,但是请求还是会源源不断的到达数据库。

解决缓存穿透问题一般可以采用以下方案配合使用:

  • 接口层进行校验,发现非法的 key 直接返回。比如数据库中采用的是自增 id,那么如果来了一个非整型的 id 或者负数 id 可以直接返回,或者说如果采用的是 32 位 uuid,那么发现 id 长度不等于 32 位也可以直接返回。
  • 将不存在的数据也进行缓存,可以直接缓存一个空或者其他约定好的无效 value。采用这种方案最好将 key 设置一个短期失效时间,否则大量不存在的 key 被存储到 Redis 中,也会占用大量内存。

布隆过滤器(Bloom Filter)

针对上面缓存穿透的解决方案,我们思考一下:假如一个 key 可以绕过第 1 种方法的校验,而此时有大量的不存在 key 被访问(如 1 亿个或者 10 亿个),那么这时候全部存储到内存中,是不太现实的。

那么有没有一种更好的解决方案呢?这就是我们接下来要介绍的布隆过滤器,布隆过滤器就可以用尽可能小的空间存储尽可能多的数据。

什么是布隆过滤器?

布隆过滤器(Bloom Filter)是由布隆在 1970 年提出的。它实际上是一个很长的二进制向量(位图)和一系列随机映射函数(哈希函数)。

布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多,缺点是有一定的误识别率而且删除困难。

位图(Bitmap)

Redis 当中有一种数据结构就是位图,布隆过滤器其中重要的实现就是位图的实现,也就是位数组,并且在这个数组中每一个位置只有 0 和 1 两种状态,每个位置只占用 1 个字节,其中 0 表示没有元素存在,1 表示有元素存在。如下图所示就是一个简单的布隆过滤器示例(一个 key 值经过哈希运算和位运算就可以得出应该落在哪个位置):

image.png

哈希碰撞

上面我们发现,lonely和wolf落在了同一个位置,这种不同的key值经过哈希运算后得到相同值的现象就称之为哈希碰撞。发生哈希碰撞之后再经过位运算,那么最后肯定会落在同一个位置。

如果发生过多的哈希碰撞,就会影响到判断的准确性,所以为了减少哈希碰撞,我们一般会综合考虑以下 2 个因素:

  • 增大位图数组的大小(位图数组越大,占用的内存越大)。
  • 增加哈希函数的次数(同一个 key 值经过 1 个函数相等了,那么经过 2 个或者更多个哈希函数的计算,都得到相等结果的概率就自然会降低了)。

上面两个方法我们需要综合考虑:比如增大位数组,那么就需要消耗更多的空间,而经过越多的哈希计算也会消耗 cpu 影响到最终的计算时间,所以位数组到底多大,哈希函数次数又到底需要计算多少次合适需要具体情况具体分析。

布隆过滤器的 2 大特点

下图这个就是一个经过了 2 次哈希函数得到的布隆过滤器,根据下图我们很容易看到,假如我们的 Redis 根本不存在,但是 Redis 经过 2 次哈希函数之后得到的两个位置已经是 1 了(一个是 wolf 通过 f2 得到,一个是 Nosql 通过 f1 得到,这就是发生了哈希碰撞,也是布隆过滤器可能存在误判的原因)。

如何从10亿数据中快速判断是否存在某一个元素?今天总算知道了

所以通过上面的现象,我们从布隆过滤器的角度可以得出布隆过滤器主要有 2 大特点:

  1. 如果布隆过滤器判断一个元素存在,那么这个元素可能存在。
  2. 如果布隆过滤器判断一个元素不存在,那么这个元素一定不存在。

而从元素的角度也可以得出 2 大特点:

  1. 如果元素实际存在,那么布隆过滤器一定会判断存在。
  2. 如果元素不存在,那么布隆过滤器可能会判断存在。

PS:需要注意的是,如果经过 N 次哈希函数,则需要得到的 N 个位置都是 1 才能判定存在,只要有一个是 0,就可以判定为元素不存在布隆过滤器中。

fpp

因为布隆过滤器中总是会存在误判率,因为哈希碰撞是不可能百分百避免的。布隆过滤器对这种误判率称之为假阳性概率,即:False Positive Probability,简称为 fpp。

在实践中使用布隆过滤器时可以自己定义一个 fpp,然后就可以根据布隆过滤器的理论计算出需要多少个哈希函数和多大的位数组空间。需要注意的是这个 fpp 不能定义为 100%,因为无法百分保证不发生哈希碰撞。

布隆过滤器的实现(Guava)

在 Guava 的包中提供了布隆过滤器的实现,下面就通过 Guava 来体会一下布隆过滤器的应用:

  • 引入 pom 依赖
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<dependency>
   <groupId>com.google.guava</groupId>
   <artifactId>guava</artifactId>
   <version>29.0-jre</version>
</dependency>
  • 新建一个测试类 BloomFilterDemo:
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
package com.lonely.wolf.note.redis;

import com.google.common.base.Charsets;
import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;

import java.text.NumberFormat;
import java.util.ArrayList;
import java.util.List;
import java.util.UUID;

public class GuavaBloomFilter {
    private static final int expectedInsertions = 1000000;

    public static void main(String[] args) {
        BloomFilter<String> bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charsets.UTF_8),expectedInsertions);

        List<String> list = new ArrayList<>(expectedInsertions);

        for (int i = 0; i < expectedInsertions; i++) {
            String uuid = UUID.randomUUID().toString();
            bloomFilter.put(uuid);
            list.add(uuid);
        }

        int mightContainNum1 = 0;

        NumberFormat percentFormat =NumberFormat.getPercentInstance();
        percentFormat.setMaximumFractionDigits(2); //最大小数位数

        for (int i=0;i < 500;i++){
            String key = list.get(i);
            if (bloomFilter.mightContain(key)){
                mightContainNum1++;
            }
        }
        System.out.println("【key真实存在的情况】布隆过滤器认为存在的key值数:" + mightContainNum1);
        System.out.println("-----------------------分割线---------------------------------");

        int mightContainNum2 = 0;

        for (int i=0;i < expectedInsertions;i++){
            String key = UUID.randomUUID().toString();
            if (bloomFilter.mightContain(key)){
                mightContainNum2++;
            }
        }

        System.out.println("【key不存在的情况】布隆过滤器认为存在的key值数:" + mightContainNum2);
        System.out.println("【key不存在的情况】布隆过滤器的误判率为:" + percentFormat.format((float)mightContainNum2 / expectedInsertions));
    }
}

运行之后的结果为:

如何从10亿数据中快速判断是否存在某一个元素?今天总算知道了

第一部分输出的 mightContainNum1一定是和 for 循环内的值相等,也就是百分百匹配。即满足了原则 1:如果元素实际存在,那么布隆过滤器一定会判断存在。 第二部分的输出的误判率即 fpp 总是在 3% 左右,而且随着 for 循环的次数越大,越接近 3%。即满足了原则 2:如果元素不存在,那么布隆过滤器可能会判断存在。

这个 3% 的误判率是如何来的呢?我们进入创建布隆过滤器的 create 方法,发现默认的fpp就是 0.03:

如何从10亿数据中快速判断是否存在某一个元素?今天总算知道了

对于这个默认的 3% 的 fpp 需要多大的位数组空间和多少次哈希函数得到的呢?在 BloomFilter 类下面有两个 default 方法可以获取到位数组空间大小和哈希函数的个数:

  • optimalNumOfHashFunctions:获取哈希函数的次数
  • optimalNumOfBits:获取位数组大小

debug 进去看一下:

如何从10亿数据中快速判断是否存在某一个元素?今天总算知道了

得到的结果是 7298440 bit=0.87M,然后经过了 5 次哈希运算。可以发现这个空间占用是非常小的,100W 的 key 才占用了 0.87M。

PS:点击这里可以进入网站计算 bit 数组大小和哈希函数个数。

布隆过滤器的如何删除

布隆过滤器判断一个元素存在就是判断对应位置是否为 1 来确定的,但是如果要删除掉一个元素是不能直接把 1 改成 0 的,因为这个位置可能存在其他元素,所以如果要支持删除,那我们应该怎么做呢?最简单的做法就是加一个计数器,就是说位数组的每个位如果不存在就是 0,存在几个元素就存具体的数字,而不仅仅只是存 1,那么这就有一个问题,本来存 1 就是一位就可以满足了,但是如果要存具体的数字比如说 2,那就需要 2 位了,所以带有计数器的布隆过滤器会占用更大的空间。

带有计数器的布隆过滤器

下面就是一个带有计数器的布隆过滤器示例:

  • pom 文件引入依赖:
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<dependency>
    <groupId>com.baqend</groupId>
    <artifactId>bloom-filter</artifactId>
    <version>1.0.7</version>
</dependency>
  • 新建一个带有计数器的布隆过滤器 CountingBloomFilter:
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
package com.lonelyWolf.redis.bloom;

import orestes.bloomfilter.FilterBuilder;

public class CountingBloomFilter {
    public static void main(String[] args) {
        orestes.bloomfilter.CountingBloomFilter<String> cbf = new FilterBuilder(10000,
                0.01).countingBits(8).buildCountingBloomFilter();

        cbf.add("zhangsan");
        cbf.add("lisi");
        cbf.add("wangwu");
        System.out.println("是否存在王五:" + cbf.contains("wangwu")); //true
        cbf.remove("wangwu");
        System.out.println("是否存在王五:" + cbf.contains("wangwu")); //false
    }
}

构建布隆过滤器前面 2 个参数一个就是期望的元素数,一个就是 fpp 值,后面的 countingBits 参数就是计数器占用的大小,这里传了一个 8 位,即最多允许 255 次重复,如果不传的话这里默认是 16 位大小,即允许 65535次重复。

总结

本文主要讲述了使用 Redis 存在的三种问题:缓存雪崩,缓存击穿和缓存穿透。并分别对每种问题的解决方案进行了描述,最后着重介绍了缓存穿透的解决方案:布隆过滤器。原生的布隆过滤器不支持删除,但是可以引入一个计数器实现带有计数器的布隆过滤器来实现删除功能,同时在最后也提到了,带有计数器的布隆过滤器会占用更多的空间问题。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
什么是布隆过滤器,隆过滤器是干什么用的?
大家看下这幅图,用户可能进行了一次条件错误的查询,这时候 redis 是不存在的,按照常规流程就是去数据库找了,可是这是一次错误的条件查询,数据库当然也不会存在,也不会往 redis 里面写值,返回给用户一个空,这样的操作一次两次还好,可是次数多了还了得,我放 redis 本来就是为了挡一挡,减轻数据库的压力,现在 redis 变成了形同虚设,每次还是去数据库查找了,这个就叫做缓存穿透,相当于 redis 不存在了,被击穿了,对于这种情况很好解决,我们可以在 redis 缓存一个空字符串或者特殊字符串,比如 &&,下次我们去 redis 中查询的时候,当取到的值是空或者 &&,我们就知道这个值在数据库中是没有的,就不会在去数据库中查询。
用户2242639
2021/06/29
6210
品味布隆过滤器 Bloom filter的设计之美
你可能没想到: RocketMQ、 Hbase 、Cassandra 、LevelDB 、RocksDB 这些知名项目中都有布隆过滤器的身影。
勇哥java实战
2023/04/14
2.4K0
品味布隆过滤器 Bloom filter的设计之美
20 亿的 URL 集合,如何快速判断其中一个?
假设遇到这样一个问题:一个网站有 20 亿 url 存在一个黑名单中,这个黑名单要怎么存?若此时随便输入一个 url,你如何快速判断该 url 是否在这个黑名单中?并且需在给定内存空间(比如:500M)内快速判断出。
Java技术栈
2019/11/05
1.3K0
如何快速判断某 URL 是否在 20 亿的网址 URL 集合中?
假设遇到这样一个问题:一个网站有 20 亿 url 存在一个黑名单中,这个黑名单要怎么存?若此时随便输入一个 url,你如何快速判断该 url 是否在这个黑名单中?并且需在给定内存空间(比如:500M)内快速判断出。
芋道源码
2019/08/21
2.1K0
布隆过滤器:原理与应用
这个时候,布隆过滤器(Bloom Filter)就派上了用场。 作为一种空间高效的概率型数据结构,布隆过滤器能够快速有效地检测一个元素是否属于一个集合。其应用广泛,从网络爬虫的网页去重,到数据库查询优化,乃至比特币网络的交易匹配,都离不开它的身影。
BookSea
2023/10/12
4890
布隆过滤器 | 亿级数据处理原理与实战
布隆过滤器(英语:Bloom Filter)是 1970 年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。主要用于判断一个元素是否在一个集合中。
Rude3Knife的公众号
2020/05/15
2.1K0
SpringBoot中如何解决Redis的缓存穿透、缓存击穿、缓存雪崩?
在使用 Redis 缓存时,可能会遇到一些缓存问题,最常见的包括缓存穿透、缓存击穿和缓存雪崩。
网络技术联盟站
2023/06/05
9210
由散列表到BitMap的概念与应用(二)
在前一篇文章中我们介绍了散列表和BitMap的相关概念与部分应用。本文将会具体讲解BitMap的扩展:布隆过滤器(Bloom filter)。
aoho求索
2018/12/11
6420
由散列表到BitMap的概念与应用(二)
什么是布隆过滤器?如何使用?
很多人想到的是HashMap。 确实可以将值映射到 HashMap 的 Key,然后可以在 O(1) 的时间复杂度内返回结果,效率奇高。但是 HashMap 的实现也有缺点,例如存储容量占比高,考虑到负载因子的存在,通常空间是不能被用满的,而一旦你的值很多例如上亿的时候,那 HashMap 占据的内存大小就变得很可观了。
Java技术债务
2022/08/09
4.2K0
什么是布隆过滤器?如何使用?
最牛一篇布隆过滤器详解
我们之前讲了Redis的缓存雪崩、穿透、击穿。在文章里我们说了解决缓存穿透的办法之一,就是布隆过滤器,但是上次并没有讲如何使用布隆过滤器。
公众号 IT老哥
2020/10/27
7.8K1
最牛一篇布隆过滤器详解
硬核 | Redis 布隆(Bloom Filter)过滤器原理与实战
在Redis 缓存击穿(失效)、缓存穿透、缓存雪崩怎么解决?中我们说到可以使用布隆过滤器避免「缓存穿透」。
码哥字节
2022/04/08
15.5K0
硬核 | Redis 布隆(Bloom Filter)过滤器原理与实战
布隆过滤器,一文总结快速掌握,你能够get多少?
假如有一个15亿用户的系统,每天有几亿用户访问系统,要如何快速判断是否为系统中的用户呢?
Java程序猿阿谷
2021/03/11
1.4K0
布隆过滤器,一文总结快速掌握,你能够get多少?
彻底搞懂Redis击穿、雪崩、穿透(下)
贰零贰肆年的第一篇Blog,也是Redis缓存三大问题的第三篇,继第一篇发布已经过去一个半月的时间,期间还有热情的小伙伴催更(hahaha~
测试蔡坨坨
2024/01/09
3030
彻底搞懂Redis击穿、雪崩、穿透(下)
内存崩溃了?其实你只需要换一种方式
使用 JDK 自带的 Set 集合来进行 URL 去重,看上去效果不错,但是这种做法有一个致命了缺陷,就是随着采集的 URL 增多,你需要的内存越来越大,最终会导致你的内存崩溃。那我们在不使用数据库的情况下有没有解决办法呢?布隆过滤器!它就可以完美解决这个问题,布隆过滤器有什么特殊的地方呢?接下来就一起来学习一下布隆过滤器。
Java_老男孩
2019/12/02
5180
布隆过滤器实战!垃圾邮件识别?重复元素判断?缓存穿透?
在程序的世界中,布隆过滤器是程序员的一把利器,利用它可以快速地解决项目中一些比较棘手的问题。如网页 URL 去重、垃圾邮件识别、大集合中重复元素的判断和缓存穿透等问题。
java思维导图
2019/12/05
2K0
布隆过滤器实战!垃圾邮件识别?重复元素判断?缓存穿透?
Redis实战篇
Redis 监听默认 6379 的端口号,可以通过 TCP 方式建立连接。 服务端约定了一种特殊的消息格式,叫做 Redis Serialization Protocol(RESP,Redis 序列化协议),发消息或者响应消息需要按这种格式编码,接收消息需要按这种格式解码。 Redis 设计这种格式的原因∶ 容易实现、解析快、可读性强。 Redis6.0新特性里面说的RESP协议升级到了3.0 版本,其实就是对于服务端和客户端可以接收的消息进行了升级扩展,比如客户端缓存的功能就是在这个版本里面实现的。
编程之心
2021/07/14
9010
Redis实战篇
布隆过滤器解读(Java实现)
布隆过滤器:(布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量(位图)和一系列随机映射函数(哈希函数)。
一个风轻云淡
2023/12/13
5060
缓存常见问题总结
在实际的开发项目中,可以根据具体的业务场景选择合适的缓存解决方案,以便满足高并发的需求和缓存安全的问题。
ma布
2024/10/21
1140
缓存常见问题总结
一文搞懂布隆过滤器
在开发软件时,我们经常需要判断一个元素是否在一个集合中,比如,如何判断单词的拼写是否错误(判断单词是否在已知的字典中);在网络爬虫里,如何确认一个网址是否已经爬取过;反垃圾邮件系统中,如何判断一个邮件地址是否为垃圾邮件地址等等。
somenzz
2021/09/14
3540
布隆过滤器
布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。
Vincent-yuan
2022/05/06
4660
布隆过滤器
相关推荐
什么是布隆过滤器,隆过滤器是干什么用的?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验