Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >为啥count(*)会这么慢?

为啥count(*)会这么慢?

作者头像
科技新语
发布于 2023-01-03 08:43:54
发布于 2023-01-03 08:43:54
1K00
代码可运行
举报
运行总次数:0
代码可运行

背景

本没想着写这篇文章的,因为我觉得这个东西大多数有经验的开发遇到过,肯定也了解过相关的原因,但最近我看到有几个关注的技术公众号在推送相关的文章。实在令我吃惊!

先上公众号文章的结论:

  • count(*) :它会获取所有行的数据,不做任何处理,行数加1。
  • count(1):它会获取所有行的数据,每行固定值1,也是行数加1。
  • count(id):id代表主键,它需要从所有行的数据中解析出id字段,其中id肯定都不为NULL,行数加1。
  • count(普通索引列):它需要从所有行的数据中解析出普通索引列,然后判断是否为NULL,如果不是NULL,则行数+1。
  • count(未加索引列):它会全表扫描获取所有数据,解析中未加索引列,然后判断是否为NULL,如果不是NULL,则行数+1。

结论:count(*) ≈ count(1) > count(id) > count(普通索引列) > count(未加索引列)

我也不想卖关子了,以上结论纯属放屁。根本就是个人yy出来的东西,甚至不愿意去验证一下,哪怕看一眼执行计划,也得不出这么离谱的结论。

我不敢相信这是一篇被多个技术公众号转载的文章!

以下所有的内容均是基于,mysql 5.7 + InnoDB引擎, 进行的分析。

拓展:

MyISAM 如果没有查询条件,只是简单的统计表中数据总数,将会返回的超快,因为service层中获取到表信息中的总行数是准确的,而InnoDB只是一个估值。

实例

废话不多说,先看一个例子。

以下是一张表数据量有100w,表中字段相对较短,整体数据量不算大。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
CREATE TABLE `hospital_statistics_data` (
  `pk_id` bigint unsigned NOT NULL AUTO_INCREMENT COMMENT '主键',
  `id` varchar(36) COLLATE utf8mb4_general_ci NOT NULL COMMENT '外键',
  `hospital_code` varchar(36) COLLATE utf8mb4_general_ci NOT NULL COMMENT '医院编码',
  `biz_type` tinyint NOT NULL COMMENT '1服务流程  2管理效果',
  `item_code` varchar(36) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '考核项目编码',
  `item_name` varchar(64) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '考核项目名称',
  `item_value` varchar(36) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '考核结果',
  `is_deleted` tinyint DEFAULT NULL COMMENT '是否删除 0否 1是',
  `gmt_created` datetime DEFAULT NULL COMMENT '创建时间',
  `gmt_modified` datetime DEFAULT NULL COMMENT 'gmt_modified',
  `gmt_deleted` datetime(3) DEFAULT '9999-12-31 23:59:59.000' COMMENT '删除时间',
  PRIMARY KEY (`pk_id`)
) DEFAULT CHARSET=utf8mb4  COMMENT='医院统计数据';
复制代码

此表初始状态只有一个聚簇索引

以下分不同索引情况,看一下COUNT(*)的执行计划。

1)在只有一个聚簇索引的情况下看一下执行计划。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
EXPLAIN select COUNT(*) from hospital_statistics_data;
复制代码

结果:

关于执行计划的各个参数的含义,不在本文的讨论范围内,可自行了解。

这里只关注以下几个属性。

  1. type: 这里显示index,说明使用了索引。
  2. key:PRIMARY使用了主键索引。
  3. key_len: 索引长度8字节。

这里有很关键的一点:count(*)也会走索引,在当前情况下使用了聚簇索引。

好,再往下看。

2)存在一个非聚簇索引(二级索引)

给表添加一个hospital_code索引。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
alter table hospital_statistics_data add index idx_hospital_code(hospital_code)
复制代码

此时表中存在2个索引,主键 hospital_code

同样的,再执行一下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
EXPLAIN select COUNT(*) from hospital_statistics_data;
复制代码

结果:

同样的,看一下 type、key和key_len三个字段。

是不是觉得有点“神奇”。

为何索引变成刚添加的idx_hospital_code了。

先别急着想结论,再看下面一种情况。

3)存在两个非聚簇索引(二级索引)

在上面的基础上,再添加一个二级索引。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
alter table hospital_statistics_data add index idx_biz_type(biz_type)
复制代码

此时表中存在3个索引,主键 、hospital_code 和 biz_type。

同样的,执行一下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
EXPLAIN select COUNT(*) from hospital_statistics_data;
复制代码

结果:

是不是更困惑了,索引又..又又...变了.

变成新添加的idx_biz_type。

先不说为何会产生以上的变化,继续往下分析。

在以上3个索引的基础上,分别看一下,count(1)count(id)count(index)count(无索引)

这4种情况,与count(*)的执行计划有何区别。

  1. count(1)
  1. count(id) 对于样例表来说是,主键是pk_id
  1. count(index)

这里选取biz_type索引字段。

  1. count(无索引)

小结:

  1. count(index) 会使用当前index指定的索引。
  2. count(无索引) 是全表扫描,未走索引。
  3. count(1) , count(*), count(id) 一样都会选择idx_biz_type索引

看到这,你还觉得那些千篇一律的公众号文章的结论正确吗?

必要知识点

  1. mysql 分为service层引擎层
  2. 所有的sql在执行前会经过service层的优化,优化分为很多类型,简单的来说可分为成本规则
  3. 执行计划所反映的是service层经过sql优化后,可能的执行过程。并非绝对(免得有些人说我只看执行计划过于片面)。绝大多数情况执行计划是可信的
  4. 索引类型分为聚簇索引非聚簇索引(二级索引)。其中数据都是挂在聚簇索引上的,非聚簇索引上只是记录的主键id。
  5. 抛开数据内存,只谈数据量,都是扯淡。什么500w就是极限,什么2个表以上的join都需要优化了,什么is null不会走索引等,纯纯的放屁。
  6. 相信一点,编写mysql代码的人比,看此文章的大部分人都要优秀。他们会尽可能在执行前,对我这样菜逼写的乱七八糟的sql进行优化。

原因分析

其实原因非常非常简单,上面也说了,service层会基于成本进行优化

并且,正常情况下,非聚簇索引所占有的内存要远远小于聚簇索引。所以问题来了,如果你是mysql的开发人员,你在执行count(*)查询的时候会使用那个索引?

我相信正常人都会使用非聚簇索引

那如果存在2个甚至多个非聚簇索引又该如何选择呢?

那肯定选择最短的,占用内存最小的一个呀,在回头看看上面的实例,还迷惑吗。

同样都是非聚簇索引。idx_hospital_codelen146字节;而idx_biz_typelen只有1。那还要选吗?

那为何count(*)走了索引,却还是很慢呢?

这里要明确一点,索引只是提升效率的一种方式,但不能完全的解决效率问题。count(*)有一个明显的缺陷,就是它要计算总数,那就意味着要遍历所有符合条件的数据,相当于一个计数器,在数据量足够大的情况下,即使使用非聚簇索引也无法优化太多。

官方文档:

InnoDBhandlesSELECT COUNT(*)andSELECT COUNT(1)operations in the same way. There is no performance difference.

简单的来说就是,InnoDB下 count(*) 等价于 count(1)

既然会自动走索引,那么上面那个所谓的速度排序还觉得对吗? count(*)的性能跟数据量有很大的关系,此外最好有一个字段长度较短的二级索引。

拓展:

另外,多说一下,关于网上说的那些索引失效的情况,大多都是片面的,我这里只说一点。量变才能引起质变,索引的失效取决于你圈定数据的范围,若你圈定的数据量占整体数据量的比例过高,则会放弃使用索引,反之则会优先使用索引。但是此规则并不是完美的,有时候可能与你预期的不同,也可以通过一些技巧强制使用索引,但这种方式少用。

举个栗子:

通过上面这个表hospital_statistics_data,我进行了如下查询:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
select * from hospital_statistics_data where hospital_code is not null;
复制代码

此时这个sql会使用到hospital_code的索引吗?

这里也不卖关子了,若hospital_code只有很少一部分数据是null值,那么将不会走索引,反之则走索引。

原因就2个字:回表

好比去买砂糖橘,如果你只买几斤,那么你随便挑筐里面好的就行。但是如果你要买一筐,我相信老板不会让你在里面一个个挑,而是一次给你一整筐,当然大家都不傻,都知道筐里里面肯定有那么几个坏果子。但是这样效率最高,而且对老板来说损失更小。

执行过程

摘抄自《从根上理解mysql》。我强烈推荐没有系统学过mysql的,看看这本书。

1.首先在server层维护一个count变量

2.server层向InnoDB引擎要第一条记录

3.InnoDB找到第一条二级索引记录,并返回给server层(注意:由于此时只是统计记录数量,所以并不需要回表)

4.由于COUNT函数的参数是*,MySQL会将*当作常数0处理。由于0并不是NULL,server层给count变量加1。

5.server层向InnoDB要下一条记录。

6.InnoDB通过二级索引记录的next_record属性找到下一条二级索引记录,并返回给server层。

7.server层继续给count变量加1。

8.重复上述过程,直到InnoDB向server层返回没记录可查的消息。

9.server层将最终的count变量的值发送到客户端。

总结

写完后还是心中挺郁闷的,现在能从公众号获取到的好文章越来越少了,现在已经是知识付费的时代了。

挺怀念刚工作的时候,那时候每天上午都花点时间看看公众号文章,现在全都是广告。哎!

不过也正常,谁也不能一直为爱发电。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
我被骗好久了!count(*) 性能最差?
当我们对一张数据表中的记录进行统计的时候,习惯都会使用 count 函数来统计,但是 count 函数传入的参数有很多种,比如 count(1)、count(*)、count(字段) 等。
小林coding
2022/02/11
5010
我被骗好久了!count(*) 性能最差?
实战!聊聊如何解决MySQL深分页问题
我们日常做分页需求时,一般会用limit实现,但是当偏移量特别大的时候,查询效率就变得低下。本文将分4个方案,讨论如何优化MySQL百万数据的深分页问题,并附上最近优化生产慢SQL的实战案例。
玖柒的小窝
2021/09/27
1.7K1
实战!聊聊如何解决MySQL深分页问题
MySQL的索引为什么用B+Tree?InnoDB的数据存储文件和MyISAM的有何不同?
这篇文章的题目,是我真实在面试过程中遇到的问题,某互联网众筹公司在考察面试者MySQL相关知识的第一个问题,我当时还是比较懵的,没想到这年轻人不讲武德,不按套路出牌,一般的问MySQL的相关知识的时候,不都是问索引优化以及索引失效等相关问题吗?怎么还出来了,存储文件的不同?哪怕考察个MVCC机制也行啊。所以这次我就好好总结总结这部分知识点。
纪莫
2021/02/04
1.7K0
MySQL的索引为什么用B+Tree?InnoDB的数据存储文件和MyISAM的有何不同?
MySQL的3种索引合并优化⭐️or到底能不能用索引?
前文我们讨论过MySQL优化回表的多种方式:索引条件下推ICP、多范围读取MRR、覆盖索引等
菜菜的后端私房菜
2024/06/18
7931
MySQL的优化利器⭐️索引条件下推,千万数据下性能提升273%🚀
时间类型:MySQL字段的时间类型该如何选择?千万数据下性能提升10%~30%🚀
菜菜的后端私房菜
2024/06/12
6121
MySQL 的回表、覆盖索引、索引下推
假如age和user_name两个字段是个联合索引,我们通过age=18这个索引找到了二级索引树对应页所在的数据,但是由于user_name是模糊查询,导致了这个字段的索引失效,我们得到了二级索引的这一页中age=18的很多个数据(主键id),我们通过这些主键ID回到主键索引树里再查表里的数据,这个操作就是回表。
向着百万年薪努力的小赵
2022/12/02
1.5K0
MySQL 的回表、覆盖索引、索引下推
阿里一面:SQL 优化有哪些技巧?
当然这个还是非常有实用价值的,工作中你也一定用的上。如果应用得当,升职加薪,指日可待
微观技术
2022/05/27
4000
阿里一面:SQL 优化有哪些技巧?
一文搞清楚 MySQL count(*)、count(1)、count(col) 的区别
在工作中遇到count(*)、count(1)、count(col) ,可能会让你分不清楚,都是计数,干嘛这么搞这么多东西。
索码理
2022/09/20
1.6K0
一文搞清楚 MySQL count(*)、count(1)、count(col) 的区别
故障分析 | MySQL 优化案例 - select count(*)
本文来源:原创投稿 *爱可生开源社区出品,原创内容未经授权不得随意使用,转载请联系小编并注明来源。
爱可生开源社区
2020/07/09
5.6K0
count(*) count(1)与count(col)的区别
count(*) 和count(1) 都是统计行数,而count(col) 是统计col列非null的行数
week
2019/06/11
4.6K0
腾讯TDSQL分区表介绍(2/2)
二级分区的情况,相比一级分区复杂一些。下面我们来看下不同的组合情况。(其中,一级hash的情况是比较特殊的,我们先来看下)
胖五斤
2022/11/10
2.6K0
图解 MySQL 索引,清晰易懂,写得太好了!
作者:shuaibing90 来源:www.xysycx.cn/articles/2020/12/05/1607146183637.html
Java技术栈
2021/11/12
7430
快速理解为啥这个查询使用索引,那个查询不使用索引,学会了才发现:真tm简单
我们说对于InnoDB存储引擎来说,表中的数据都存储在所谓的B+树中,我们每多建立一个索引,就相当于多建立一棵B+树。
Bug开发工程师
2019/12/02
6600
腾讯TDSQL分区表介绍(1/2)
TDSQL集群支持创建集中式实例和分布式实例。在使用分布式实例的时候,可以创建以下几种类型的表:
胖五斤
2022/11/10
3.7K0
老大问我:“建表为啥还设置个自增 id ?用流水号当主键不正好么?”
" 又要开始新项目了,一顿操作猛如虎,梳理流程加画图。这不,开始对流程及表结构了。
why技术
2020/11/02
2K0
老大问我:“建表为啥还设置个自增 id ?用流水号当主键不正好么?”
MySQL常见的索引失效场景
索引创建和删除语句如下,方便大家自己进行其他测试,建议自己将所有语句运行一边,使用explain + 查询语句看看运行计划,加深一边印象
天下之猴
2024/09/11
1750
MySQL常见的索引失效场景
SQL优化思路+经典案例分析
SQL调优这块呢,大厂面试必问的。最近金九银十嘛,所以整理了SQL的调优思路,并且附几个经典案例分析。
捡田螺的小男孩
2023/02/24
1K0
SQL优化思路+经典案例分析
MySQL 不同存储引擎下 count(星) count(1) count(field) 结果集和性能上的差异,不要再听网上乱说了
👋 你好,我是 Lorin 洛林,一位 Java 后端技术开发者!座右铭:Technology has the power to make the world a better place.
Lorin 洛林
2023/11/19
3860
MySQL 不同存储引擎下 count(星) count(1) count(field) 结果集和性能上的差异,不要再听网上乱说了
你必须懂的一些MySQL索引技巧
为了更好地进行解释,我创建了一个存储引擎为InnoDB的表user_innodb,并批量初始化了500W+条数据。包含主键id、姓名字段(name)、性别字段(gender,用0,1表示不同性别)、手机号字段(phone),并为name和phone字段创建了联合索引。
蝉沐风
2022/08/11
6370
你必须懂的一些MySQL索引技巧
MySQL数据库BUG导致查询不到本该查到的数据
在数据库的日常使用中,我们常常会遇到一些看似匪夷所思的查询问。最近就看到一个因为MySQL BUG导致无法查到本该查询到数据的案例。
俊才
2025/03/24
1760
MySQL数据库BUG导致查询不到本该查到的数据
推荐阅读
相关推荐
我被骗好久了!count(*) 性能最差?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验