基数树(RadixTree),是一种比较有趣的数据结构,最近需要一种比较高效的查找,两度遇到了基数树,便整理下来给有相关需求的伙伴提供一种思路。
第一次写进程创建的时候我使用的内核版本还是 3.10 的版本。在这个版本里已分配的进程 pid 号是用 bitmap 来存储的。但在 5.4 和 6.1 版本里,发现进程 pid 号管理实现已经从 bitmap 替换成了基数树(radix-tree)。后来翻了下版本更新历史,原来自从 Linux 4.15 之后,内核就已经将 bitmap 换掉了。
基数树(Radix Trie)也叫基数特里树或压缩前缀树,是一种多叉树,一种更节省空间的 Trie(前缀树)。
最核心的结构体是irq_desc,之前为了易于理解,我们说在Linux内核中有一个中断数组,对于每一个硬件中断,都有一个数组项,这个数组就是irq_desc数组。
基数树又叫压缩前缀树(compact prefix tree),是一种空间优化后的字典树,其中如果一个节点只有唯一的子节点,那么这个子节点就会与父节点合并存储
1. 本项目基于google公司的开源项目tcmalloc作为背景,简化实现一个高并发内存池,用该项目可以替代传统的malloc free函数来申请和释放内存,malloc和free作为我们最开始接触内存管理的元老级函数是在熟悉不过的了,有人说已经有malloc和free这样的内存管理函数了,我们搞一个tcmalloc真的有意义吗?其实不然,像malloc和free这种的函数是通用级别的,而通用的东西往往都带有一个特性,那就是适用性强,可移植性强,但是随之而带来的缺点就是针对性不够明显,比如对于某些高并发项目场景,项目内的线程数量众多,不断的调用malloc,可能会涉及到频繁的加锁和解锁,这对于项目性能的影响是不可小觑的,所以在某些高并发场景,同时对性能要求又高的情况下,malloc和free就显的没那么能打了,此时google公司召集了一批顶尖的cpp高手写出来了tcmalloc这样高效的内存管理项目,而我们的这个项目只是从tcmalloc里面摘取了精华部分,目的就是学习和理解高效的内存管理应该是什么样子的,而不是造一个更好的轮子出来。
举个例子,有一个字段它一共在10万行数据里有10万个值对吧?结果呢?这个10万值,要不然就是0,要不然就是1,那么他的基数就是2,为什么?因为这个字段的值就俩选择,0和1。假设你要是针对上面说的这种字段建立索引的话,那就还不如全表扫描了,因为你的索引树里就仅仅包含0和1两种值,根本没法进行快速的二分查找,也根本就没有太大的意义了,所以这种时候,选用这种基数很低的字段放索引里意义就不大了。
Redis Stream 是 Redis 5.0 版本引入的一种新的数据类型,它是一个持久化的、可查询的、可扩展的消息队列服务。
关于Kafka的一个灵魂拷问:它为什么这么快?或者说,为什么它能做到如此大的吞吐量和如此低的延迟?
最近,某客户自建redis迁移上云时出现了容量增加25%的现象。这到底是怎么回事呢?
HyperLogLog是一种概率算法,提供了不精确的去重计数方案,是有误差的基数统计.
大型语言模型 (LLM) 越来越多地用于需要多个链式生成调用、高级 prompt 技术、控制流以及与外部环境交互的复杂任务。然而,用于编程和执行这些应用程序的现有高效系统存在着明显的缺陷。
如果一个基数树的“基数”(radix)为2或2的整数次幂,就被称为“帕特里夏树”,有时也直接认为帕特里夏树就是基数树
PG客户端-服务协议的基本目的是双重的:将SQL查询发送到服务,接收整个执行结果作为响应。服务接收到查询去执行要经过几个阶段。
上篇文章介绍了用索引列分组也可以提高效率,及其回表的代价,回表是二级索引+回表查询,如果回表数据量太庞大,mysql优化器就会采用全表扫描查询,而覆盖索引不会回表。
来源:https://www.the-paper-trail.org/post/art-paper-notes/[1]
数据库技术爱好者,爱可生 DBA 团队成员,负责 MySQL 日常问题处理以及数据库运维平台的问题排查,擅长 MySQL 主从复制及优化,喜欢钻研技术问题,还有不得不提的 warship。
count(*) 和count(1) 都是统计行数,而count(col) 是统计col列非null的行数
以上排序算法都有一个性质:在排序的终于结果中,各元素的次序依赖于它们之间的比較。我们把这类排序算法称为比較排序。
一般的,数据库管理系统(DBMS)有通用的架构模型,可分为四个模块:传输通信、查询处理器、执行引擎、存储引擎。其中查询处理器包括查询解析器和查询优化器,而查询优化器是实现SQL计划树优化的核心。查询处理器的处理流程如下图所示,查询优化的执行过程包括两个关键阶段:
一、线性时间排序算法历史概览 计数排序首先是由 Harold H. Seward 于1954年提出,而且他还提出将计数排序和基数排序进行结合的思想;基数排序是L.J.Comrie于1929年首次在一篇描述卡片穿孔机文档中提出的一种方法,它是从最低有效位开始,对一个有多位数组成的数进行排序的方法;而桶排序的基本思想则由E.J.Isaac和R.C.Singleton于1956年提出的,之后很多研究人员在这三种算法的基础上针对不同的应用场景又进一步改进,到了今天一个很成熟、很通用的地步。 二、O(nl
PHP数据结构(十七)——内部排序综述 (原创内容,转载请注明来源,谢谢) 一、稳定性 假设Ki=Kj(1<=i,j<=n,i!=j),且排在序列前的序列中Ri领先于Rj(即i>j)。 1)若在排序后的序列中,Ri必然仍领先于Rj,则称所用的排序方法是稳定的。 2)如果Ri可能出现在Rj之后的情况,则称所用的排序方法是不稳定的。 用一句话描述,就是原数组中两个相同的数字,一个在前一个在后,经过某种排序后(无论重新使用该方法排序多少次),仍一个在前一个在后,则称为稳定。
设计Bytom 数据结构,组合了许多技术点,如 patricia tree,utxo, bvm, account model,protobuf,sql,memcache 等。本文会对一些技术点做以下两点分析。
大数据发展至今,各大公司的数据量已经是非常庞大了,虽然通用计算框架Spark/Presto等已经能满足用户的很多查询需求,但是更快的查询还是大家向往的。OLAP框架Doris/StarRocks/Clickhouse等在业界已经很火了,虽然有着非常强的计算层,但是在存储层的优化也是非常多的,不仅有特殊的编码、压缩还有一大堆的可配置索引,例如BitMap/HLL维度类型可以快速的计算去重的场景等,ZSTD算法等极致压缩,倒排索引点查等等。
本文介绍了 Oracle 索引的分类,包括单列索引、多列索引、唯一索引、非唯一索引、函数索引、域索引、分区索引、非分区索引、B-tree 索引、反向 B-tree 索引、位图索引。还介绍了索引的结构和适用场景,如树状结构、索引头、开始ROWID、结束ROWID、位图索引等。
PHP数据结构(二十六)——基数排序实现36进制数排序 (原创内容,转载请注明来源,谢谢) 一、概述 插入排序、选择排序、快速排序等,都是通过关键字之间的比较和移动进行的。基数排序完全不同,其是借助多个关键字排序的思想对单逻辑关键字进行排序的方法。 所谓多关键字,可以理解为带权值的关键字。例如: 现有序列{a0,a1,a2,a3,b0,b1,b2,b3},假设a<b,数字按数字正常的大小。现要求对这个序列进行排序,但是要求数字的优先级更高,即a0<b0<a1<b1。则这种排序可以认为是多关键字的排序
上篇文章介绍了条件列,排序,分组都可以建立索引,select查询不需要建立,长字符串建立二级索引可以用索引前缀建立或者建立hash索引,避免时间和空间的浪费。建立索引的时候,列的类型尽量小点。还要看当前列的基数,基数越小,所有数据都一样,都无法排序,大量数据需要回表查询,所以基数越大才适合建立所以。
我们知道文件一般存放在硬盘(机械硬盘或固态硬盘)中,CPU 并不能直接访问硬盘中的数据,而是需要先将硬盘中的数据读入到内存中,然后才能被 CPU 访问。
由于LeetCode上的算法题很多涉及到一些基础的数据结构,为了更好的理解后续更新的一些复杂题目的动画,推出一个新系列 -----《图解数据结构》,主要使用动画来描述常见的数据结构和算法。本系列包括十大排序、堆、队列、树、并查集、图等等大概几十篇。
近几年,Apache Kylin作为一个高速的开源分布式大数据查询引擎正在迅速崛起。它充分发挥Hadoop、Spark、HBase等技术的优势,通过对超大规模数据集进行预计算,实现秒级甚至亚秒级的查询响应时间,同时提供标准SQL接口。目前,Apache Kylin已在全球范围得到了广泛应用,如百度、美团、今日头条、eBay等,支撑着单个业务上万亿规模的数据查询业务。在超高性能的背后,Cube是至关重要的核心。一个优化得当的Cube既能满足高速查询的需要,又能节省集群资源。本文将从多个方面入手,介绍如何通过优
逻辑上: Single column 单行索引 Concatenated 多行索引 Unique 唯一索引 NonUnique 非唯一索引 Function-based函数索引 Domain 域索引
其实,由于不仅是因为今年受疫情影响,很多公司经营不下去,公司规模缩小,造成岗位缺少。更重要的是因为初级过剩,中级缺少,高级紧缺。所以说,作为一名程序员,如果不学习,不增进自己的技术,那你一定会被内卷被优化!
上篇文章说了,mysql可以指定行格式,compact,dynamic,他结构有变长字段长度列表,null值,头部和真实数据存储,compact真实数据会存一定量的页,后面指向页的页码,dynamic全部存的页码,char会根据字符集来变换存储,行溢出是65535个字节,其中null值占一个,数据长度占两个,所以实际65532个字节,也会根据不同字节来变换。Index页存储这标记是否删除,删除的数据会组成垃圾链表,也叫可重用链表,而页里的数据,会根据next_Records来组成链表方便查询,二分查找法查找不同组的槽点。
数据在磁盘上是以块的形式存储的。为确保对磁盘操作的原子性,访问数据的时候会一并访问所有数据块。磁盘上的这些数据块与链表类似,即它们都包含一个数据段和一个指针,指针指向下一个节点(数据块)的内存地址,而且它们都不需要连续存储(即逻辑上相邻的数据块在物理上可以相隔很远)。
版权声明:本文为博主原创文章,转载请注明博客地址: https://blog.csdn.net/zy010101/article/details/73613760
是一个连续的单元格子存储在内存中的一组数据,元素内存在很多编程语言中是要求相同的,比如Java,c,但是对于一些脚本语言却是不那么回事,比如JavaScript,就允许数组中每个元素的类型各不相同,其特点是:查找某个位置的元素飞快,但是对短板也很明显,对于插入删除元素会存在大量的补位操作,较为耗时。
在去年结束的秋季招聘中,后台开发或服务器开发的岗位需求一度火热,甚至超过了算法岗。不少同学从诸神黄昏的算法岗战场上退下,转向更偏向工程能力的后台开发岗,从而造成后台开发岗位竞争的大爆发。
前面一篇文章着重讲述了 B+ 树索引,实际上一些数据库中,树索引除了 B+ 树结构,还有其他的一些比较常见的索引结构。
一、什么是进化树二、进化树的构成1. 根 (Root)2. 结点 (Node)3. 进化支 (Branch)4. 外群5. 进化分支长度6. 距离标尺7. Bootstrap value三、进化树评估1. Bootstrap检验2. 重复取样值3. Bootstrap value 阈值4. Bootstrap value 与分支四、几种进化树图1.经典树图(Traditional)Rectangle Tree2.圈图(Circle Tree)3.辐射树(Radiation Tree)
假设我们有一张数据表 employee(员工表),该表有三个字段(列),分别是name、age 和address。假设表employee有上万行数据(这公司还真大),现在需要从这个表中查找出所有名字是‘ZhangSan’的雇员信息,你会快速的写出SQL语句:
目录 在线练习 在线编程面试 数据结构 算法 贪心算法 位运算 复杂度分析 视频教程 面试宝典 计算机科学资讯 文件结构 在线练习 LeetCode Virtual Judge CareerCup HackerRank CodeFights Kattis HackerEarth Codility Code Forces Code Chef Sphere Online Judge – SPOJ 在线编程面试 Gainlo Refdash 数据结构 链表 链表
之前文章有写过关于基于Operator操作符Selectivity选择率讲解,“Hive优化器原理与源码解析系列—统计信息之选择性和基数”,其中有讲过详细讲解Cardinality基数和Selectivity选择率的计算。但这篇文章主要内容讲述stats统计信息模块关于Predicate谓词的Selectivity选择率的讲解,为了方便讲述。这里还是先简单提一下Cardinality基数和Selectivity选择率概念:
上次我们写过了 Linux 启动详细流程,这次单独解析 start_kernel 函数。
原创地址:https://mp.weixin.qq.com/s?__biz=Mzg4NDQ0OTI4Ng==&mid=2247485799&idx=1&sn=49369686896c5e3413d9e
Hive优化器是使用Apache Calcite动态数据管理框架实现的,其中包含VolcanoPlanner基于成本优化器(CBO)和HelpPlaner基于规则的启发式优化器(RBO)优化器。根据用户HiveConf配置信息使用不同的优化器。
Hello 大家好,rosedb 目前正处于重构阶段,想要征求一些大家的意见和建议,欢迎大家来畅所欲言。
领取专属 10元无门槛券
手把手带您无忧上云