索引是对数据库表中一列或者多列的值进行排序的结构。
数据库索引好比一本书的目录,提高查询效率。但是为表设置索引要付出相应的代价:
索引项的顺序与表中记录的物理顺序一致。对于聚集索引,叶子结点即存储其真实的数据行,不再有另外单独的数据页。
表数据存储顺序与索引顺序无关。对于非聚集索引,叶子结点包含索引字段值和数据页数据行的地址,其行数量与数据表中行数量一致。
注意:一个表中只有一个聚集索引,但是可以有多个非聚集索引。
不允许具有索引值相同的行,但是可以为 NULL,不能有多个 NULL。
是唯一索引的特殊类型。数据库表中经常有一列或多列组合,其值唯一标识表中的每一行,该列称为表的主键。
在数据库中为表定义主键将自动创建主键索引。
对于 m 阶 B 树,有如下性质:
B+ 树是 B 树的变体,其定义基本与 B 树相同,除了:
数据库系统普遍采用 B+ 树作为索引结构,主要有以下原因:
哈希索引就是采用一定的哈希算法,把键值换算成新的哈希值,检索时不需要类似 B+ 树那样从根节点到叶子节点逐级查找,只需一次哈希算法即可立刻定位到相应位置,速度非常快。
哈希索引底层的数据结构是哈希表,能以 O(1) 时间进行查找,但是失去了有序性;因此在绝大多数需求为单条记录查询的时候,可以选择哈希索引,查询性能最快。
哈希索引的不足:
MySQL 索引使用的是 B 树中的 B+ 树,但索引是在存储引擎层实现的,而不是在服务器层实现的,所以不同存储引擎具有不同的索引类型和实现。
MyISAM 引擎使用 B+ 树作索引结构,叶子节点的 data 域存放的是数据记录的地址,所有索引均是非聚集索引。
上图是一个 MyISAM 表的主索引(Primary key)示意图。
假设该表一共有三列,以 Col1 为主键。MyISAM 的索引文件仅仅保存数据记录的地址。
在 MyISAM 中,主索引和辅助索引(Secondary key)在结构上没有任何区别,只是主索引要求 key 是唯一的,而辅助索引的 key 可以重复。如果在 Col2 上建立一个辅助索引,则该辅助索引的结构如下:
同样也是一棵 B+ 树,data 域保存数据记录的地址。
MyISAM 中首先按照 B+ 树搜索算法搜索索引,如果指定的 key 存在,则取出其 data 域的值,然后以 data 域的值为地址,读取相应数据记录。MyISAM 的索引方式也叫做非聚集索引(稀疏索引)(索引和数据是分开存储的)。
InnoDB 也使用 B+ 树作为索引结构。有且仅有一个聚集索引,和多个非聚集索引。
InnoDB 的数据文件本身就是索引文件。MyISAM 索引文件和数据文件是分离的,索引文件仅保存数据记录的地址。而在 InnoDB 中,表数据文件本身就是按 B+ 树组织的一个索引结构,这棵树的叶子节点 data 域保存了完整的数据记录。这个索引的 key 是数据表的主键,因此 InnoDB 表数据文件本身就是主索引。
上图是 InnoDB 主索引(同时也是数据文件)的示意图。可以看到叶子节点包含了完整的数据记录。
这种索引叫做聚集索引(密集索引)(索引和数据保存在同一文件中):
与 MyISAM 索引的不同是 InnoDB 的辅助索引 data 域存储相应记录主键的值而不是地址。例如,定义在 Col3 上的一个辅助索引:
聚集索引这种实现方式使得按主键的搜索十分高效,但是辅助索引搜索需要检索 2 遍索引:
首先检索辅助索引获得主键,然后用主键到主索引中检索获得记录。
注意 InnoDB 索引机制中:
最左前缀匹配原则
MySQL 会一直向右匹配知道遇到范围查询(>、<、between、like)就停止匹配。比如 a=3 and b=4 and c>5 and d=6
,如果建立 (a,b,c,d) 顺序的索引,d 就是用不到索引的,如果建立(a,b,d,c) 的索引则都可以用到,并且 a,b,d 的顺序可以任意调整。
= 和 in 可以乱序
比如 a = 1 and b = 2 and c = 3
建立 (a,b,c) 索引可以任意顺序,MySQL 的查询优惠器可进行优化。
尽量选择选择度高的列建索引
# 选择度计算
SELECT COUNT(DISTINCT staff_id)/COUNT(*) AS staff_id_selectivity,
COUNT(DISTINCT customer_id)/COUNT(*) AS customer_id_selectivity,
COUNT(*)
FROM payment;
使用 like 进行模糊查询时,如果已经建立索引,第一个位置不要使用 '%',否则索引会失效。
当检索性能远远大于检索性能时,不应该建立索引。