周末的时间,学了一下redis。
Redis作为内存数据库,访问速度快是最大的特点,那么,什么情况下,Redis也会变慢呢?
Redis有5种基本数据类型:String,List,Hash,Set,ZSet
有6种底层数据结构:
Redis用了一个全局的哈希表保存所有的键值对,一个哈希表,其实是一个数组,数组里的每一个元素对应为一个哈希桶。每个哈希桶保存键值对数据。
哈希桶中元素保存的是指向值的地址指针,这样即使值是一个集合,也能通过指针找到。
如图是全局哈希表的键值访问过程:
哈希表的查找依赖哈希计算,O(1)的时间复杂度找到键值对。
既然是哈希表,可能存在哈希冲突。redis解决哈希冲突的方法是链地址法,即同一个哈希桶中的多个元素用一个链表来保存,它们之间用指针相连。
看到这,肯定有个疑问,如果冲突的元素越来越多,就会导致在这个链上查找的耗时变长,对于追求快的Redis来说,这是不能接受的。
所以,Redis会对哈希表做rehash操作。可以理解为和Java里的HashMap扩容一样。增加现有哈希桶数量,让增多的元素在更多的桶之间分散保存。
redis中rehash的方法是:
1. redis默认使用了2个全局哈希表
2. 当插入数据时,默认使用哈希表1
3. 随着数据增多,redis进行rehash操作,为哈希表2分配更大的内存空间,如是哈希表1的两倍;
4. 把哈希表1中的数据重新映射到哈希表2中
5. 释放哈希表1的内存
其中 数据重新映射 这一步涉及大量数据拷贝,如果让主线程一次全部迁移完,会造成redis线程阻塞。
为了避免这一问题,redis使用了渐进式rehash
简单地说,就是在拷贝数据过程中,不是一次拷贝完。而是每处理一个请求时,从哈希表1的第一个索引位置开始,将这个位置上所有元素拷贝到哈希表2中,等处理下一请求时,再拷贝下一索引位置的数据,整个过程如下:
集合类型的底层结构是:整数数组,双向链表,哈希表,压缩列表,跳表
哈希表、整数列表、双向链表的操作特征都是顺序读写,操作复杂度是O(N),效率比较低。
压缩列表:
查找定位列表的第一个元素和最后一个元素,可以通过表头3个字段的长度直接定位,复杂度O(1),查找其他元素时,只能逐个查找了,复杂度O(N)。
跳表
如图所示,
当数据量很大时,跳表查找的复杂度是O(logN)
redis底层数据结构查找的时间复杂度如下表:
名称 | 时间复杂度 |
---|---|
哈希表 | O(1) |
跳表 | O(logN) |
双向链表 | O(N) |
压缩列表 | O(N) |
整数数组 | O(N) |
思考:压缩列表和整数数组的查找时间复杂度比较高,为什么redis还要用它们呢?