预计阅读时间:15分钟 小强前几篇文章介绍了mysql的索引原理以及sql优化的一些小技巧。mysql底层的算法选择哪种索引,有时候会和我们想象的不一样,大家可以继续往下看。...对于上面的这两种 name>'a' 和 name>'zzz'的执行结果, mysql最终是否选择走索引或者一张表涉及多个索引, mysql最终如何选择索引,可以通过trace工具来一查究竟,开启trace..."chosen": false, ‐‐是否选择该索引 "cause": "cost" }..., 索引MySQL最终会选择全表扫描。...,所以MySQL最终选择索引扫描。
相信大家对唯一索引和普通索引是有一定的了解的,那么在不同的业务场景,使用唯一索引还是普通索引呢,比如下面的场景 假设你在维护一个账户系统,每一个人都有一个唯一的身份证,而业务也能保证他的唯一性,此时我们设置唯一索引和普通索引其实都是可以的...那么我如何分析性能问题呢,我针对查询和更新两方面进行分析 查询过程 假设插叙的语句是select id from T where k=5,这个查询语句在索引树上查询的过程,先是通过B+树树根查询,找到叶子节点...,也就是上图的右下角的数据页,然后通过数据页内容通过二分法定位记录 对于普通索引,查询到满足的而第一个记录后,需要向后继续寻找,直到不满足条件 对于唯一索引,由于索引的唯一性,查询到数据后,直接停止查询...,既然已经在内存中了,我们直接更新内存会更快,就没有必要使用change buffer了,因此唯一索引的更新是不会使用change buffer,只有普通索引可以使用....索引的选择和实践 普通索引和唯一索引选择,其实,这类索引在查询能力上是没有差别,主要考虑的是对更新性能的影响,所以建议选择普通索引。
在前一篇文章中,我们讨论了 SQL 与 NoSQL 数据库之间基本的区别。接下来,我们我们将应用我们在特定场景中的知识来确定最佳的选择。...如果你有较浅的话,任何一种选择都是可行的,或者自然的非规范数据。但是请注意这些简化示例场景与全面的概括!你比我更了解你的项目,我不建议切换从SQL到NoSQL或反之亦然,除非它提供了可观的效益。...这是你的选择。在项目的开始要考虑利弊,你不能出错。 场景一:一个联系人列表 让我们重新发明轮子,实现一个基于sql的通讯录系统。...全文搜索也变得简单;在MongoDB里,我们可以这样定义 contact 中的所有文本字段的索引: ? 然后执行全文搜索: ?...(当前)只有 SQL 数据库满足这些需求。 表现自己! 我希望这些场景有所帮助,但是每个项目是不同的,最终,你需要做出自己的决定。(虽然,我们开发人员擅长于证明我们的技术选择,不管他们有多好!)
如果你有较浅的话,任何一种选择都是可行的,或者自然的非规范数据。但是请注意这些简化示例场景与全面的概括!你比我更了解你的项目,我不建议切换从SQL到NoSQL或反之亦然,除非它提供了可观的效益。...这是你的选择。在项目的开始要考虑利弊,你不能出错。 场景一:一个联系人列表 让我们重新发明轮子,实现一个基于sql的通讯录系统。...全文搜索也变得简单;在MongoDB里,我们可以这样定义 contact 中的所有文本字段的索引: db.contact.createIndex({ "$**": "text" }); 然后执行全文搜索...现在假设我们想在发布更新的时候引入表情符号选择。这涉及到给 update 数组里的新记录添加图引用。...(当前)只有 SQL 数据库满足这些需求。 表现自己! 我希望这些场景有所帮助,但是每个项目是不同的,最终,你需要做出自己的决定。(虽然,我们开发人员擅长于证明我们的技术选择,不管他们有多好!)
主要内容如下: TableEnvironment 简介 5 个 TableEnvironment 梳理 如何使用 TableEnvironment 社区未来规划 1....TableEnvironment 简介 TableEnvironment 是用来创建 Table & SQL 程序的上下文执行环境,也是 Table & SQL 程序的入口,Table & SQL 程序的所有功能都是围绕...TableEnvironment 的主要职能包括:对接外部系统,表及元数据的注册和检索,执行SQL语句,提供更详细的配置选项。...TableEnvironment 目前还不支持注册 UDTF 和 UDAF,用户有注册 UDTF 和 UDAF 的需求时,可以选择使用其他 TableEnvironment。...如何使用 TableEnvironment 根据用户使用的 planner 和作业的类型,可以把各个 TableEnvironment 的应用场景分为 4 类,下面结合代码来说明在不同的场景下如何使用
MySQL 普通索引和唯一索引该如何选择? 普通索引和唯一索引在查询能力上没啥差别,主要考虑对更新性能的影响,要尽量选择普通索引。接下来分析两种索引在查询语句和更新语句对性能的影响。...,也就是说普通索引和唯一索引在查询性能上差别不是很大。...唯一索引不会使用 Change buffer ,如果索引设置了唯一属性,在进行插入或者修改操作时,InnoDB 必须进行唯一性检查,如果不读取索引页到缓冲池,无法校验索引是否唯一,但是可以进行缓冲删除操作...普通索引能够使用 change buffer ,但是唯一索引不行,因此 普通索引比唯一索引更新操作快。...change buffer 使用场景 适合的场景 非唯一索引 业务写多读少,或者不是写后立即读场景。 不合适场景 数据库都是唯一索引 写入一个数据后,会立即读取它。
ACOUG年会杨长老的演讲中,曾提到一个问题, 一条SQL语句,两种执行计划的cost值相同,CBO是如何选择执行计划?...对于以下SQL, select * from z where a=1 and b=1; 根据10053显示,可以看出,IDX_Z_01和IDX_Z_02这两个索引,cost相同,CBO会选择何种执行计划...如果Cost值相同的索引的叶子块数量不同,则Oracle会选择叶子块数量较少的那个索引; 2. 如果Cost值相同的索引的叶子块数量相同,则Oracle会选择索引名的字母顺序在前面的那个索引。...先验证(2)的观点,从上面10053可以看出,两个索引的cost相同,叶子块数相同,此时CBO选择的是IDX_Z_01,因为他的名字,排在IDX_Z_02前面, Best:: AccessPath:...,10gR2及以上的版本,Oracle CBO还是有方法选择,索引叶子块是第一个条件,索引名称排序是第二个条件。
我拿到上面的SQL在数据库执行发现是走了agent_code索引的,并且查询效率也是正常的,然后删掉了筛选条件,执行结果也是一样。 上面分别是带条件和不带条件的执行计划,可以看到没有什么区别。...除此之外我又想到之前看到过limit和order by连用会出现索引选择错误的问题,于是我在带上limit 0,30在数据库执行刚刚的SQL,果不其然,慢SQL出现了。...到这里,SQL优化就结束了,但是为什么加上limit就会导致Mysql选错索引呢,而且为什么走主键索引就很慢呢,预估扫描行数明明更少了呀?...因为我这条SQL是查询主键索引倒序结果,索引天然有序,不用排序了,所以看到执行计划里面的Extra字段没有了Using filesort,这里比普通索引快,但是这条SQL是有where条件筛选的,那么在拿到有序结果后...(1000w条)),Mysql就认为使用普通索引更快,因为普通索引预估扫描行数只有不到1.8W条;但是加了limit之后走主键索引的预估扫描行数可能会少于走普通索引的预估扫描行数,导致索引选择错误。
前言 众所周知,Catalyst Optimizer是Spark SQL的核心,它主要负责将SQL语句转换成最终的物理执行计划,在一定程度上决定了SQL执行的性能。...在了解join策略选择之前,首先看几个先决条件: 1. build table的选择 Hash Join的第一步就是根据两表之中较小的那一个构建哈希表,这个小表就叫做build table,大表则称为...那么Catalyst在处理SQL语句时,是依据什么规则进行join策略选择的呢? 1. Broadcast Hash Join 主要根据hint和size进行判断是否满足条件。...Shuffle Hash Join 选择Shuffle Hash Join需要同时满足以下条件: spark.sql.join.preferSortMergeJoin为false,即Shuffle...语句最终的join策略选择笛卡尔积还是BNLJ,效率都很低,这一点在实际应用中,要尽量避免。
为什么InnoDB存储引擎选择使用B+tree索引结构?...query_id的SQL语句CPU的使用情况 show profile cpu for query query_id; (四)explain执行计划 EXPLAIN或者DESC命令获取MySQL如何执行...SELECT语句的信息,包括在SELECT语句执行过程中表如何连接和连接的顺序。...语法 create index idx_xxoxx on table_name(column(n)); 前缀长度 可以根据索引的选择性来决定,而选择性是指不重复的索引值(基数)和数据表的记录总数的比值,...索引选择性越高则查询效率越高,唯一索引的选择性是1,这是最好的索引选择性,性能也是最好的。
,Tell me,多少人考虑过这个问题,唯一索引和普通索引该怎么选择?...首先,不管建立在身份号上的是唯一索引还是普通索引,他们都属于辅助索引,对吧。通过遍历辅助索引 B+ 树我们能够知道要查找的数据的主键是多少,然后回表查询。...所以,以后各位小伙伴要是遇到读多写少的业务,记得留个心眼,少用唯一索引~ 最后放上这道题的背诵版: 面试官:唯一索引和普通索引有什么区别,该如何选择?...小牛肉:唯一索引和普通索引的不同点就在于,普通索引查找到满足条件的第一个记录后,还会继续去查找下一个记录,直到碰到第一个不满足该条件的记录;而对于唯一索引来说,一旦找到一个满足条件的记录后,就会立即停止继续检索...对于普通索引来说,无非就是再移动一次指针罢了。 真正能够区分唯一索引和普通索引差距的,在于 Insert Buffer / Change Buffer 的存在,因为它们只适用于非唯一的辅助索引。
为什么在 MySQL数据库中,一条慢查询只要添加上合适的索引,查询速度就能提升一个档次?对于 MySQL,如何巧用索引优化SQL语句性能?需要注意什么问题?...解决问题之前最重要且最难的事情是定位问题,因此,我们需要先定位出慢 SQL,这样才能对症下药进行优化,那么,如何定位慢 SQL呢?如何判断慢 SQL?...联合索引 联合索引是指将表中多个字段联合组合成一个索引,比如:index(age, sex) 那么联合索引是如何用B+树实现的呢?...,假设一条数据的大小是1K,因此叶子节点可以存放 16Kb/1K = 16条数据,所以3层的B+树可以存放 1170 * 1170 * 16 = 21902400行记录总结本文从索引角度来分析如何优化SQL...语句性能,主要是思路是:先确认慢SQL,可从SQL执行日志,也可以通过 EXPLAIN执行计划通过 EXPLAIN执行计划来确认是否为慢SQL,以及该给哪些字段增加索引最后,在使用索引时,我们提供了一些注意点以及使用技巧
在微信群中,老虎刘老师提了一个有趣的问题,这个SQL,object_id列的可选择性非常高,owner列的可选择性比较差,你认为创建什么索引最佳?...,选择出成本值最低的一个,虽然owner有索引,但是owner='SYS'的记录会返回接近一半的数据,相比索引单块读,全表扫描多块读,效率会更高一些,此时consistents gets是52, SQL...owner,而索引前导列object_id的区分度很高,所以不会选择索引跳跃扫描,consistent gets是45, SQL> create index idx_t_01 on t(object_id...此外,object_id单键值索引和object_id作为前导列的复合索引,对这两种索引的选择,还取决于业务的需求,如果有同时用object_id和owner这两个字段做检索条件的,可以选择使用复合索引...索引的选择,其实还是非常讲究的,无论是索引类型,还是索引字段的顺序,针对不同的业务场景,都会有不同方案,最根本的,还是对索引的原理通晓,加上经验的积累,才可能慢慢掌握。
微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引、簇集索引)和非聚集索引(nonclustered index,也称非聚类索引、非簇集索引) 我们举例来说明一下聚集索引和非聚集索引的区别...测试索引 先创建一张测试表 [sql] view plaincopy 1. ...SQL Server 执行时间: CPU 时间 = 0 毫秒,占用时间 = 18 毫秒。 这是没有索引的时候。...SQL Server 执行时间: CPU 时间 = 0 毫秒,占用时间 = 1 毫秒 没有建索引时候是85,建完索引后变成95,因为维护索引数据是有一定的开销增加,索引对update和delete...在c2列上添加索引 create index i2 on t1(c2) 更新sql update t1 set c1=1,c2=1 where c2=1 表 't1'。
3、如何选择合适的列建立索引 1、在where从句,group by从句,order by从句,on从句中的列添加索引 2、索引字段越小越好(因为数据库数据存储单位是以“页”为单位的,数据存储的越多,...结论:由于customer_id 离散程度大,使用index(customer_id,staff_id)好 C、mysql联合索引 ① 命名规则 :表名_字段名 1、需要加索引的字段,要在where条件中...2、数据量少的字段不需要加索引 3、如果where条件中是OR关系,加索引不起作用 4、符合最左原则 ② 什么是联合索引 1、两个或更多个列上的索引被称作联合索引,又被称为是复合索引。...2、利用索引中的附加列,您可以缩小搜索的范围,但使用一个具有两列的索引 不同于使用两个单独的索引。...所以说创建复合索引时,应该仔细考虑列的顺序。对索引中的所有列执行搜索或仅对前几列执行搜索时,复合索引非常有用;仅对后面的任意列执行搜索时,复合索引则没有用处。
微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引、簇集索引)和非聚集索引(nonclustered index,也称非聚类索引、非簇集索引)。...虽然SQL SERVER默认是在主键上建立聚集索引的。 通常,我们会在每个表中都建立一个ID列,以区分每条数据,并且这个ID列是自动增大的,步长一般为1。...改善SQL语句 很多人不知道SQL语句在SQL SERVER中是如何执行的,他们担心自己所写的SQL语句会被SQL SERVER误解。...SQL SERVER中有一个“查询分析优化器”,它可以计算出where子句中的搜索条件并确定哪个索引能缩小表扫描的搜索空间,也就是说,它能实现自动优化。 ...到此为止,我们上面讨论了如何实现从大容量的数据库中快速地查询出您所需要的数据方法。
,上面的SQL语句我们通过force index(a)以后,确实使用了索引。...优化器如何选择索引? 优化器会根据扫描行数、是否使用临时表、是否排序等因素进行综合判断。 扫描行数如何判断? MySQL优化器只能根据统计信息来估算实际的记录数,该统计信息称为区分度。...如何处理索引选择异常?...可以使用force index强制走某个索引,但该方法弊端过于明显,索引名称变更受影响,如果迁移到别的数据库语法不兼容 修改SQL语句,引导MySQL优化器选择正确的索引 新建一个更合适的索引,删除误用的索引...,来给优化器选择 -- 修改SQL语句,引导MySQL优化器选择正确的索引 explain select * from t where (a between 1 and 1000) and (b between
那么面对这么多系统,我们改如何选择呢?这里谈谈这些系统的区别和优缺点。 Hive/Tez/Stinger目前的主要推动者是hortonworks和Yahoo!。...SparkSQL是把SQL解析成RDD的transformation和action,而且通过catalyst可以自由、灵活的选择最优执行方案。...Impala的另外一个重要的优点就是支持的SQL是在以上这些系统中是最标准的,也就是跟SQL99是最像的,所以对于传统企业来说可能是个不错的选择。...目前交互式BI查询最好的选择是Impala。...SparkSQL/DataFrame是Spark用户使用SQL或者DataFrame API构建Spark pipeline的一种选择,并不是一个通用的支持交互式查询的引擎,更多的会用在基于Spark的机器学习任务的数据处理和准备的环节
那Catalyst是依据什么样的规则来选择join策略的?本文来简单补个漏。...表如何被广播 如果有某个表的大小小于spark.sql.autoBroadcastJoinThreshold参数规定的值(默认值是10MB,可修改),那么它会被自动广播出去。对应代码如下。...当逻辑计划的数据量小于广播阈值与Shuffle分区数的乘积,即小于spark.sql.autoBroadcastJoinThreshold * spark.sql.shuffle.partitions时...重要的话再说一次,策略的选择会按照效率从高到低的优先级来排。...这个要求不高,所以Spark SQL中非小表的join都会采用此策略。
(对于包含索引的数据库,SQL Sever需要一个可观的额外空间。例如,要建立一个聚簇索引,需要大约1.2倍于数据大小的空间。速度是需要付出代价的。) 索引有两种类型:聚簇索引和非聚簇索引。...在聚簇索引中,索引树的叶级页包含实际的数据:记录的索引顺序与物理顺序相同。 在非聚簇索引中,叶级页指向表中的记录:记录的物理顺序与逻辑顺序没有必然的联系。...聚簇索引非常象目录表,目录表的顺序与实际的页码顺序是一致的。非聚簇索引则更象书的标准索引表,索引表中的顺序通常与实际的页码顺序是不一致的。一本书也许有多个索引。例如,它也许同时有主题索引和作者索引。...在这种情况下,同时建立一个聚簇索引和非聚簇索引是有效的。你可以对日期时间字段建立聚簇索引,对用户名字段建立非聚簇索引。如果你发现你需要更多的索引方式,你可以增加更多的非聚簇索引。...SQL 问题与解答:轻松掌握索引 http://technet.microsoft.com/zh-cn/magazine/gg703775.aspx SQL 问题与解答:维护日志和索引:http://
领取专属 10元无门槛券
手把手带您无忧上云