首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

为什么我说 ETL 是 SQL 人重启辉煌之光的必经之路

SQL 在行业内还是相当重要的,当然你说 CRUD 那点东西玩几个月就会了,没有新奇感。从技术角度来看,是这样,我承认。但换成业务角度来说,这又不是一回事了。...这要细讲,我可以讲上三天三夜,所以留到以后的文章再说。 在 OLTP 系统中,CRUD 能做的事情,越来越少了。大部分都由前端框架封装好了。...真正能让 SQL 人凭手艺,还在 CRUD 行当里吃香的,喝辣的,技术上取决于你掌握了多少种数据库,SQL写得多快,要不然就是要享受福报了。 好在上帝关闭一扇窗的同时,他又打开了一道门。...这是早就很多 CRUD boy/girl 的历史原因。随着年代的沉淀,数据越积越多,当报表越查越慢,分析师跑个查询要花费10多分钟,有可能还要使业务系统崩溃的时候,数据仓库就该出场了。...所以 ETL 是 SQL 人重启辉煌之光的必经之路。

91121

面试官:怎么去除 List 中的重复元素?我一行代码搞定,赶紧拿去用!

问题 上次栈长给大家分享了《带了一个 3 年的开发,不会循环删除 List 中的元素,我简直崩溃!!》,上次也给大家留了个小话题: 怎么去除 List 中的重复元素呢?...虽然两个话题差不多,但实现起来就大相径庭了,废话少说,来看看都有哪些实现方式,这仅是我个人的实现方案,不一定全,也不一定是最优的,欢迎大家拍砖。...复制一个 list2,再循环 List2,判断 list 中的元素的首尾出现的坐标位置是否一致,如果一致,则说明没有重复的,否则重复,再删除重复的位置的元素。...我们知道 Set 是不包含重复元素的,把 List 先装进 HashSet,然后再装回来,这样就保证了元素的不重复。...去重 Stream 去重 最后两种方案最简单,都是一行代码就能搞定的,推荐使用!

1.1K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    SQL中去除重复数据的几种方法,我一次性都告你​

    使用SQL对数据进行提取和分析时,我们经常会遇到数据重复的场景,需要我们对数据进行去重后分析。...) 【解题思路】 方法1:distinct SQL书写如下: select distinct 访客id ,浏览时间 from 淘宝日销售数据表; 查询结果: 这里用distinct语句多字段进行去重的时候...方法2:group by SQL书写如下: select 访客id ,浏览时间 from 淘宝日销售数据表 group by 访客id ,浏览时间; 查询结果: group by对访客id...和浏览时间进行分组,分组汇总后改变了表的行数,一行只有一个类别,这里使用group by后会将访客id 和浏览时间作为一个类别保留,重复的就会不显示。...淘宝日销售数据表; 查询结果: 去除重复项的三种操作,你get了吗?

    5.1K10

    这个大表走索引字段查询的 SQL 怎么就成全扫描了,我TM人傻了

    也很慢,也就是可能某些子查询被实际执行了导致。...使用索引列与常数值作比较, MYSQL 通过索引分析出这个覆盖了表中大部分的值,其实就是分析出命中的行最后回表拉取数据的时候,表的文件中大部分页都要被加载到内存中进行读取,这样的话与其说先将索引加载到内存中获取命中列...由于考虑分库分表,以及有时候数据库 SQL 执行计划总是不完美还是会出现索引走错的情况,我们一般尽量在 OLTP 查询业务上加 force index 强制走一些索引。...## 打开 optimizer_trace set session optimizer_trace="enabled=on"; ## 执行 SQL select ..... ## 查询 trace 结果...`share_code` = 'B2MTB6C' ) ) 我去,原来两个表的字段的编码是不一样的!

    76920

    我的Mysql查询SQL优化总结

    当我们遇到一个慢查询语句时,首先要做的是检查所编写的 SQL 语句是否合理,优化 SQL 语句从而提升查询效率。所以对 SQL 有一个整体的认识是有必要的。...FROM | JOIN : 获取 FROM 指定的表(或分区表)。如果为联表查询,将对相关表进行联表计算。产生虚表 VT₁ 。...产生表虚表 VT₆ 。 ORDER BY : 根据 ORDER BY 子句给出的信息对 VT₆ 进行排序,产生虚表 VT₇ 。...LIMIT : 根据 LIMIT 子句给出的信息对 VT₇ 取出指定行的记录,产生虚表 VT₈ ,该结果将会返回给客户端。...清楚 SQL 的执行顺序后,接下来可以看一下在日常查询使用中,常见的拖慢查询的 SQL 使用,这些原因可以通过改写 SQL 来进行优化。 2、联表查询 过于复杂的联表查询通常是导致查询效率低下的原因。

    1.7K40

    为什么你写的sql查询慢?为什么你建的索引常失效?

    为什么你写的sql查询慢?为什么你建的索引常失效? 通过本篇内容,你将学会MySQL性能下降的原因,索引的简介,索引创建的原则,explain命令的使用,以及explain输出字段的意义。...场景一:订单导入,通过交易号避免重复导单 业务逻辑:订单导入时,为了避免重复导单,一般会通过交易号去数据库中查询,判断该订单是否已经存在。...索引简介 官方定义:索引(Index) 是帮助MySQL高效获取数据的数据结构。 大家一定很好奇,索引为什么是一种数据结构,它又是怎么提高查询的速度?...id select 查询的序列号,包含一组可以重复的数字,表示查询中执行sql语句的顺序。...range:只检索给定范围的行,使用索引来匹配行。范围缩小了,当然比全表扫描和全索引文件扫描要快。sql语句中一般会有between,in,>,查询。

    61810

    OpenCV论道:为什么我的伽马校正函数只有一行?

    大家好,又见面了,我是你们的朋友全栈君。...最近在用 OpenCV 识别棋盘棋子,基本的思路是这样的:先转灰度,再做高斯模糊和二值化,此时棋盘格上有的有棋子,有的无棋子;通过迭代腐蚀,消去棋子,再迭代膨胀回来,就得到了一个纯净的棋盘;识别棋盘,标定位置...就是提升图像的暗部细节。这与加曝处理是不一样的,加曝一般不区分图像的暗部和亮部。...奇怪的是,我在网上搜到的伽马校正函数看起来都很复杂,即便是 python 写的,也都得十几行甚至几十行,可我写的伽马校正函数只有一行。为什么会这样呢?是我理解的不对吗?...、伽马校正(gamma=2)的灰度二值化效果、伽马校正(gamma=3)的灰度二值化效果: 对于彩色图片,这个伽马校正函数依然有效。

    1.2K20

    从根上理解SQL的like查询%在前为什么不走索引?

    我再次的阐述一下,用索引和走索引不是一个意思! 其实每天都有人私信我,如果遇到一些好的问题,我会拿来单独写文章的。比如,昨天就有人问我,like 查询 % 在前为什么不走索引?...不能人云亦云,我们应该从根上理解它,为什么要这样设计?为什么不走索引? 其实结果对我来说,并不重要,重要的是过程。设计过程或者实现过程,这才是我最关心的。...所以,今天我就从根上给你说一说为什么 like 查询 % 在前为什么不走索引? 例如,看这个例子: ? 说到这个例子,估计很多人会提到最左匹配原则。那么为什么要搞一个最左匹配原则呢?...所以要从左边开始,并且是不能跳过的。SQL 索引也是这样的。 然后,我们再来看标题中的问题。% 在前,就代表,我前面的内容不确定。不确定,我们怎么比较?...后面,我再给你们讲讲,为什么说索引的离散型越高越好!

    5.2K20

    慢SQL探秘之为什么我的SQL很慢却没记录在慢查询日志里

    在MySQL数据库中,想了解数据库运行情况的重要指标之一是慢SQL。而并非如某些人所说的所有运行慢的SQL都会被记录在慢SQL日志(或日志表)里,抑或是没有慢SQL就代表没有运行慢的SQL。...执行时间超过该阈值的SQL语句将被记录到慢SQL日志中。默认值为10秒。 log_queries_not_using_indexes:如果设置为1,则将未使用索引的查询也记录到慢查询日志中。...min_examined_row_limit: 仅在查询的行数超过指定值时,才记录到慢SQL日志中。默认值为0,表示不限制。 3....SQL是否记录到慢查询日志。...其他SQL 除了以上的情况外,复制线程的查询、被DBAkill的正在运行的SQL或部分未运行完毕的SQL也不会记录在慢SQL日志中(不过部分情况再MySQL8.0中有所变更),因此需要大家根据实际情况多总结及测试

    41610

    SQL查询和删除重复值的操作方法

    如题,SQL查询和删除重复值,例子是在Oracle环境下,类似写法网上很多。...1、利用distinct关键字去重 2、利用group by分组去重(这里没有实验出来就不写了) 3、利用rowid查询去重(个人推荐这个,rowid查询速度是最快的) 先一张测试表(USERS),里面有很多重复数据...*/ select distinct username,password from users; image.png 方法二:用rowid方法进行全字段重复查询,也可以按字段查询重复值 注:先查询出最后一条的全字段重复值...,在用rowid找出其他剩余的重复值 select * from users u01 where rowid!...(这里删除的是全字段重复的数据,根据不同情况where后面条件适当修改) delete from users u01 where rowid!

    2.2K00

    为什么我的sql没问题但还是这么慢|MySQL加锁规则

    或许此时你已经对于为什么多人调试程序时数据库访问不时出现卡顿有了一些自己的想法,当然这只是锁机制的冰山一角。...而InnoDB存储引擎默认的事务隔离级别是可重复读(Read Repeatable),简单来说:就是当事务A启动期间,普通的select查询将无法访问到其他事务在此期间对表记录的改动。...幻读概述 • 在InnoDB引擎的可重复读隔离级别下,普通查询是快照读,不会看到其他并发事务插入的数据,因此幻读在当前读情况下才会出现。...以下的分析建立在没有间隙锁的情况下(只是为了分析所作的假设): • 事务A的第一个sql查询c=1的记录,获得(1,1),此时添加了for update,从语义上就是希望锁住所有c=1的行记录。...• 此时事务B并发插入了一条(2,1)的记录,并且成功。 • 事务A的第二个sql依旧查询c=1的记录,获得(1,1)、(2,1)两条记录,从语义上违背了第一条sql的目的。

    84430

    Oracle 分页查询

    a、利用查询需要进行分页的结果集,然后根据然会的结果集生成rownum select rownum,a.* from (select * from emp) a 左图红框内的结果集是rownum生成的行序号...>=6 执行sql,发现没有结果集产生,原因是:oracle规定rownum作为判断条件只能在一条查询语句中出现一次,如果当前使用rownum的查询是子查询,外部查询还需要使用到rownum,那么外部查询就需要使用子查询中...) where rn>=6 其实到这一步,还是会有很多人不明白为什么上面的a为什么要那样查询整个结果集,并给结果集生成一个rownum,明明可以像下面这样写: select rownum,a.* from...emp a; 现在告诉为什么这样写: 因为这样写方便管理我们要查询的字段,将我们要查的字段和实际的排序过程分开,更好的控制排序,如果我们这里不需要查询所有的字段,而只需要查询JOB、MGR、SAL三个字段我们就可以这样改...,a.SAL from emp a where rownum<=10) where rn>=6 这样改将分页的过程和要查询字段糅合在一起了,相当于将这个sql写死了,只能查全部或者特定几个字段,而且如果这边的查询需要根据某个字段进行排序

    3.1K80

    为什么我建议在复杂但是性能关键的表上所有查询都加上 force index

    最近,又遇到了慢 SQL,简单的看了下,又是因为 MySQL 本身优化器还有查询计划估计不准的问题。...对于 MySQL 慢 SQL 的分析 在之前的文章,我提到过 SQL 调优一般通过下面三个工具: EXPLAIN:这个是比较浅显的分析,并不会真正执行 SQL,分析出来的可能不够准确详细。...但是不能直观的看出来为啥会走错索引,需要通过 OPTIMIZER TRACE 进行进一步定位。但是在进一步定位之前,我想先说一下 MySQL 的 InnoDB 查询优化器数据配置。.../en/innodb-persistent-stats.html 为了优化用户的 SQL 查询,MySQL 会对所有 SQL 查询进行 SQL 解析、改写和查询计划优化。...假设本次采集的结果就是图中所示,其他索引采集的比较均衡,通过其他索引判断用户都要扫描几万行的结果。但是主键采集的最后一页,正好末尾全是这个用户的记录。

    1.4K20

    Oracle与Sql server的区别 一直搞不明白Oracle数据库和sql server的区别,今天我特意查资料把他们的区别整理出来

    一直搞不明白Oracle数据库和sql server的区别,今天我特意查资料把他们的区别整理出来 Oracle数据库:Oracle Database,又名Oracle RDBMS,或简称Oracle。...sql server数据库:美国Microsoft公司推出的一种关系型数据库系统。...从操作平台这点上Oracle是完全优胜于SQL Server的了。...在oracle里有两个块参数pctfree(填充因子)和pctused(复用因子),可控制块确定块本身何时有,何时没有足够的空间接受新信息(对块的存储情况的分析机制) 这样可降低数据行连接与行迁移的可能性...(4)安全性           Oracle的安全认证获得最高认证级别的ISO标准认证,而SQL Server并没有获得什么安全认证。这方面证明了Oracle的安全性是高于SQL Server的。

    5.3K30

    MySQL实战第十九讲-为什么我只查一行的语句,也执行这么慢?

    一般情况下,如果我跟你说查询性能优化,你首先会想到一些复杂的语句,想到查询需要返回大量的数据。但有些情况下,“查一行”,也会执行得特别慢。...为了便于描述,我还是构造一个表,基于这个表来说明今天的问题。这个表有两个字段 id 和 c,并且我在里面插入了 10 万行记录。...第一类:查询长时间不返回 如下所示,在表 t 执行下面的 SQL 语句: select * from t where id=1; 查询结果长时间不返回。...然后我们再针对每种状态,去分析它们产生的原因、如何复现,以及如何处理。...我在表 t 上,执行下面的 SQL 语句: select * from information_schema.processlist where id=1; 这里,我先卖个关子。

    99830

    19 | 为什么我只查一行的语句,也执行这么慢?

    在 session A 中,我故意每行都调用一次 sleep(1),这样这个语句默认要执行 10 万秒,在这期间表 t 一直是被 session A“打开”着。...然后,session B 的 flush tables t 命令再要去关闭表 t,就需要等 session A 的查询结束。...第二类:查询慢 select * from t where c=50000 limit 1; c是varchar类型的,全盘扫描了,没啥好说的。或者c是没有索引的。 情景: ?...带 lock in share mode 的 SQL 语句,是当前读,因此会直接读到 1000001 这个结果,所以速度很快;而 select * from t where id=1 这个语句,是一致性读...因为引擎里面这个行只定义了长度是 10,所以只截了前 10 个字节,就是’1234567890’进去做匹配; 这样满足条件的数据有 10 万行; 因为是 select *, 所以要做 10 万次回表;

    1K20

    批量导入Excel文件,为什么我导入的数据重复了?

    小勤:大海,为什么我从Excel文件夹导入的数据重复了? 大海:数据给我来试试看?...所以在后续编辑查询的时候我们首先要把合并工作表的内容过滤掉,否则以后刷新数据时会连合并工作表的数据一起导入。...【插入“表格”】或【Ctrl+T】或【套用表格格式】或【添加到数据模型】或【“从表格”新建查询】等等方式,使原始的普通的工作表数据装换成的“表格”,有些文章里,作者为了避免与普通工作表的差别,称之为“超级表...Table 和DefineName的情况在Excel中可通过以下方法识别(以下2图不是本文涉及的数据导入操作步骤): 了解这些内容之后,我们就可以按需要去选择数据以避免重复了。...Step-06:展开数据 Step-07:将第一行提升为标题行 Step-08:删除不需要的列 Step-09:删除不需要的空行 Step-10:数据上载 小勤:原来Excel里还隐藏了这么多东西

    3.1K50

    BI为什么我的查询运行多次?

    如果计算零行架构需要提取数据,则可能会出现重复的数据源请求。数据隐私分析数据隐私对每个查询进行自己的评估,以确定查询是否安全运行在一起。 此评估有时可能会导致对数据源发出多个请求。...详细信息: 禁用数据隐私防火墙后台数据下载 (也称为“后台分析”)与为数据隐私执行的评估类似,默认情况下,Power Query编辑器将下载每个查询步骤的前 1000 行预览。...下载这些行有助于确保数据预览在选择步骤后立即显示,但也可能导致数据源请求重复。...隔离多个查询可以通过关闭查询过程的特定部分来隔离多个查询的实例,以隔离来自重复请求的位置。...如果此时发生重复请求,则这些请求在创作查询的方式上是固有的。 如果没有,并且如果逐个启用上述设置,则可以观察重复请求的开始时间点。以下各部分更详细地说明了这些步骤。

    5.5K10
    领券