首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

理解索引:索引优化

最近有个需求,要修改现有存储结构,涉及查询条件和查询效率的考量,看了几篇索引和HBase相关的文章,回忆了相关知识,结合项目需求,说说自己的理解和总结。

错过的朋友可以先回顾下前3篇文章:

上一篇详细介绍了explain命令,通过该命令,可以定位出在哪一步出现了性能问题,下一步就是通过优化索引来解决它。

部分内容摘录了几个博友的文章,最后会给出文章链接,感谢他们的精彩分析。

常见优化方法

联合索引最左前缀原则

复合索引遵守「最左前缀」原则,查询条件中,使用了复合索引前面的字段,索引才会被使用,如果不是按照索引的最左列开始查找,则无法使用索引。

比如在(a,b,c)三个字段上建立联合索引,那么它能够加快a|(a,b)|(a,b,c)三组查询的速度,而不能加快b|(b,a)这种查询顺序。

另外,建联合索引的时候,区分度最高的字段在最左边。

不要在列上使用函数和进行运算

不要在列上使用函数,这将导致索引失效而进行全表扫描。

例如下面的 SQL 语句:

即使 date 上建立了索引,也会全表扫描,可以把计算放到业务层,这样做不仅可以节省数据库的 CPU,还可以起到查询缓存优化效果。

负向条件查询不能使用索引

负向条件有:!=、、not in、not exists、not like 等。

可以使用in进行优化:

使用覆盖索引

所谓覆盖索引,是指被查询的列,数据能从索引中取得,而不用通过行定位符再到数据表上获取,能够极大的提高性能。

可以定义一个让索引包含的额外的列,即使这个列对于索引而言是无用的。

避免强制类型转换

当查询条件左右两侧类型不匹配的时候会发生强制转换,强制转换可能导致索引失效而进行全表扫描。

如果phone字段是varchar类型,则下面的SQL不能命中索引:

可以优化为:

范围列可以用到索引

范围条件有:、>=、between等。

范围列可以用到索引,但是范围列后面的列无法用到索引,索引最多用于一个范围列,如果查询条件中有两个范围列则无法全用到索引。

更新频繁、数据区分度不高的字段上不宜建立索引

更新会变更B+树,更新频繁的字段建立索引会大大降低数据库性能。

「性别」这种区分度不大的属性,建立索引没有意义,不能有效过滤数据,性能与全表扫描类似。

区分度可以使用 count(distinct(列名))/count(*) 来计算,在80%以上的时候就可以建立索引。

索引列不允许为null

单列索引不存null值,复合索引不存全为null的值,如果列允许为 null,可能会得到不符合预期的结果集。

避免使用or来连接条件

应该尽量避免在 where 子句中使用 or 来连接条件,因为这会导致索引失效而进行全表扫描,虽然新版的MySQL能够命中索引,但查询优化耗费的 CPU比in多。

模糊查询

前导模糊查询不能使用索引,非前导查询可以。

优化案例

利用延迟关联或者子查询优化超多分页场景

MySQL 并不是跳过 offset 行,而是取 offset+N 行,然后返回放弃前 offset 行,返回 N 行。

当 offset 特别大的时候,效率非常低下,要么控制返回的总页数,要么对超过特定阈值的页数进行SQL改写。

可以先快速定位需要获取的id段,然后再关联:

如果明确知道只有一条结果返回,limit 1 能够提高效率

虽然自己知道只有一条结果,但数据库并不知道,明确告诉它,让它主动停止游标移动。

如何建立索引

建议建立两个索引,即 idx_ab(a,b) 和 idx_b_time(b,time)

MySQL 的查询优化器会自动调整where子句的条件顺序以使用适合的索引,对于上面的第一条 SQL,如果建立索引为idx_ba(b,a) 也是可以用到索引的。

多值匹配和范围匹配

假如有联合索引(empno、title、fromdate),下面的 SQL 是否可以用到索引,如果可以的话,会使用几个?

可以使用索引,可以用到索引全部三个列,这个 SQL看起来是用了两个范围查询,但作用于empno上的between实际上相当于in,也就是说empno 实际是多值精确匹配。

在 MySQL 中要谨慎地区分多值匹配和范围匹配,否则会对 MySQL 的行为产生困惑。

联合索引的最左匹配原则

假如建立联合索引(a,b,c),下列语句是否可以使用索引,如果可以,使用了那几列?

根据区分度创建索引

有如下查询语句,查找指定产品已审核(status=1)的评论:

可以建立联合索引,status和product_id,但是哪个放左边就要计算区分度:

一般product的区分度会高点,可以创建如下索引:

排序字段索引

查看某个用户最近20条登录记录,按时间排序:

建立uid+timeline复合索引,将排序引入到索引结构中,数据库负载骤降。

周末愉快

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180603G0HG1V00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券