Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大数据计数原理1+0=1这你都不会算(九)No.64

大数据计数原理1+0=1这你都不会算(九)No.64

作者头像
大蕉
发布于 2018-02-05 10:56:24
发布于 2018-02-05 10:56:24
5850
举报

大数据计数原理1+0=1这你都不会算(一)No.47 <- HashSet

大数据计数原理1+0=1这你都不会算(二)No.50 <- BitMap

大数据计数原理1+0=1这你都不会算(三)No.51 <- BloomFilter

大数据计数原理1+0=1这你都不会算(四)No.52 <- B-Tree

大数据计数原理1+0=1这你都不会算(五)No.55 <- B+Tree

大数据计数原理1+0=1这你都不会算(六)No.57 <- LinearCounting(一)

大数据计数原理1+0=1这你都不会算(七)No.59 <- LinearCounting(二)

大数据计数原理1+0=1这你都不会算(八)No.60 <- RoaringBitMaps

啦啦啦~有小伙伴说我最近怎么不更新,其实最近真的很忙,而且有很多新的东西要去学,连论文都只能抽时间看。今天这个算法说实话很难理解,但是确实是一个很好很好巨好的基数估计算法。叫做LogLogCounting,出自论文《Loglog Counting of Large Cardinalities》,人称LLC。

这么举例子吧,跟你聊聊这个算法有多节省内存。假如我们有1亿数据基数,使用HashSet可能需要2G内存,使用BitMap需要大概12.5M,使用LinearCounting需要1.25M,使用LLC只需要640字节,连1K都不需要。

我们都知道,基数统计的前提就是hash函数要足够好。什么叫足够好?分布均匀、长度一致、碰撞可忽略。怎么取?主流加密算法基本都可以。

好了牛逼吹完了,想了解到这个程度的可以左上角退出了嗷。下面是严肃的数学时间,我尽量讲得不那么数学。

首先,这个算法的第一要义是什么?靠猜。

比如我们Hash完的串为0100,1000,0010。等,我们发现这些串第一个1出现的位置在第3位上(按1、2、3、4这样从左往右数),那我们就猜,总共有2^3这么多个数。主要算法思路就是上面这样,取第一个1出现的位置,然后靠猜。

那么问题来了,我们为什么可以这样猜呢?这就需要概率论的知识了。

我们假设字符串"Banana"(简称为B),通过hash之后得到了一大堆的01的比特串,因为我们的hash算法非常好,所以每一个bit位为0和为1的概率就是五五开,都是50%这样。

那我们就把他当成是薛定谔的猫了,我完全不知道这个bit位有没有猫,只有谜底揭晓的时候才知道。我们把所有装着盒子的猫一字排排开,从头开始找。第一个盒子找不到猫(标记bit位为0)的概率为1/2,第二个盒子就找到猫的概率为1/(2^2),第k个盒子就找到猫的概率为1/(2^k)。

好,接下来假设我们总共要找n次,也就是有n个B进行hash。

考虑第一个问题。第一个B进行Hash后,在第k个位置第一次找到猫的概率为1-1/(2^k),那么明显,进行n次的结果后,所有的寻找次数加起来,都最多在第k个位置第一次找到猫的概率P( X <= k )= (1-1/(2^k))^n。当n远大于2^k的时候,P( X <= k )的概率几乎为0,好了我们找到了一个上限。

接下来我们考虑第二个问题。那么如果考虑每一次的结果都大于k呢?概率P( X >= k) = 1 - (1-1/(2^k))^n。由极限定理可以得到,当n远小于2^k的时候,P( X >= k )的概率几乎为0。

那么我们就得到说,无论是n远大于2^k 时,P的概率很小。无论是n远小于2^k 时,P的概率也很小。那既然这样,我们就直接拍脑袋取2^k了嘛。

所以LLC的基本思想就是。我们先拍一个大概的数据范围,也就是统计的上限,比如你的数据量是大概1亿,1百亿还是1千亿,这样拍一个,然后选hash算法均匀分配到他们身上。意思就是,如果我们的基数是1千亿,那么我们致至少要有足够多的bit位空间来保存这上限也就是一千亿。在实际进行统计的时候,我们进行n次hash之后,如果第一个找到1的位置是k,那么就可以估计这个基数是2^k。

基础算法到这里就说完了,我们也说了,我们是靠猜的,那能不能猜得靠谱些?

可以。

我猜几十次几百次取平均,应该大概或许能降低这个误差吧?这就有了分桶的思想,我们只需要每个桶记住自己桶的位置以及桶里边最大的k值,就可以了。

我们假设分桶树为16,也就是2^4。那我们就取hash值的前四个bit来进行分桶,把每个桶的max保留起来即可。为什么可以这样保留?因为我们把它界定在某一个桶之后,那它的第一个1肯定是在桶内的,这时候我们就可以对比一下当前桶内的max值,进行合并。然后最终的时候,直接取一下所有桶值得平均即可。

主线就这样说完了,先消化一下,下一次我们继续聊聊,如何降低误差,如何把LogLogCounting 算法改进成无偏估计,改进完的算法误差率究竟在什么样的范围。棒~~掰掰

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-10-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一名叫大蕉的程序员 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
大数据计数原理1+0=1这你都不会算(八)No.60
今天跟小伙伴们聊聊另外一个统计算法, Roaring BitMaps。 这个该怎么翻译呢??咆哮的位图?s?我翻译不出来,但是小蕉头一歪,就给它起了一个狂拽酷霸叼扎天的翻译 -> 咆哮吧,位图君们。
大蕉
2018/02/05
8820
大数据计数原理1+0=1这你都不会算(八)No.60
大数据计数原理1+0=1这你都不会算(七)No.59
今天的干货,不是一般的干,噎死人那种干。没下面这些准备的话直接退出吧,回去度娘啊谷哥啊弄懂是什么东西再回来。 知识储备必须有这些: BitMap知识。概率论二项分布。泰勒展开。函数求极限。求期望值。求方差、标准差。log对数变换。极大似然估计。 照例甩一波链接。 大数据计数原理1+0=1这你都不会算(一)No.47 <- HashSet 大数据计数原理1+0=1这你都不会算(二)No.50 <- BitMap 大数据计数原理1+0=1这你都不会算(三)No.51
大蕉
2018/02/05
5840
大数据计数原理1+0=1这你都不会算(七)No.59
大数据计数原理1+0=1这你都不会算(六)No.57
照例甩一波链接。 大数据计数原理1+0=1这你都不会算(一)No.47 <- HashSet 大数据计数原理1+0=1这你都不会算(二)No.50 <- BitMap 大数据计数原理1+0=1这你都不会算(三)No.51 <- BloomFilter 大数据计数原理1+0=1这你都不会算(四)No.52 <- B-Tree 大数据计数原理1+0=1这你都不会算(五)No.55 <- B+Tree 今天开始进入一个全新的领域,嗯
大蕉
2018/02/05
6290
大数据计数原理1+0=1这你都不会算(六)No.57
大数据计数原理1+0=1这你都不会算(十)No.77
大数据计数原理1+0=1这你都不会算(一)No.47 <- HashSet 大数据计数原理1+0=1这你都不会算(二)No.50 <- BitMap 大数据计数原理1+0=1这你都不会算(三)No.51 <- BloomFilter 大数据计数原理1+0=1这你都不会算(四)No.52 <- B-Tree 大数据计数原理1+0=1这你都不会算(五)No.55 <- B+Tree 大数据计数原理1+0=1这你都不会算(六)No
大蕉
2018/02/05
5310
大数据计数原理1+0=1这你都不会算(十)No.77
大数据计数原理1+0=1这你都不会算(三)No.51
这是本坑的第三篇,之前已经说了关于 HashSet 和 BitMap 了,这次说说 Bloom Filter 布隆过滤器,要是还不知道前面讲了啥的,可以点一下下面的连接看看。 大数据计数原理1+0=1这你都不会算(一)No.47 大数据计数原理1+0=1这你都不会算(二)No.50 我们都知道BitMap已经非常节省空间了,一个值只需要一个 bit 就可以进行统计了,但是,对于上百亿的数据来说,碰撞率即使非常低,但也不是一个可以忽视的问题了。 当时提出这个问题,一个是因为垃圾电子邮箱,每天少说都有几十
大蕉
2018/02/05
6300
大数据计数原理1+0=1这你都不会算(三)No.51
大数据计数原理1+0=1这你都不会算(四)No.52
这是本坑的第四篇,之前已经说了关于 HashSet 、BitMap 、Bloom Filter 布隆过滤器了,本篇主要讲B-树。要是还不知道前面讲了啥的,可以点一下下面的连接看看。 大数据计数原理1+0=1这你都不会算(一)No.47 大数据计数原理1+0=1这你都不会算(二)No.50 大数据计数原理1+0=1这你都不会算(三)No.51 B+树是现在很多索引系统的数据结构,而B-树是B+树的基础,本次先讲B-树。 而在讲B-树之前,又不得不讲二叉搜索树(BST,Binary Search Tree)
大蕉
2018/02/05
6400
大数据计数原理1+0=1这你都不会算(四)No.52
大数据计数原理1+0=1这你都不会算(五)No.55
Hello哈,又好久没聊大数据相关的东西了,是不是又忘记了吖?这次聊聊B-树的升级版,B+树。前面的内容小伙伴可以回顾一下。 大数据计数原理1+0=1这你都不会算(一)No.47 <- HashSet 大数据计数原理1+0=1这你都不会算(二)No.50 <- BitMap 大数据计数原理1+0=1这你都不会算(三)No.51 <- BloomFilter 大数据计数原理1+0=1这你都不会算(四)No.52 <- B-Tree 所谓B+树
大蕉
2018/02/05
5800
大数据计数原理1+0=1这你都不会算(五)No.55
大数据计数原理1+0=1这你都不会算(一)No.47
hello哈,大家是不是好久没见到我啦?我也是一直在摸索小伙伴们喜欢看到什么东西,不喜欢看什么东西,还请大家多多支持。为了表示感谢。小蕉在这给你们一鞠躬,二鞠躬,三。事不过三~ 1+0=1你都不会谈什么大数据? 这篇呢,又是开坑之作,这是一个系列,主要会将大数据下的计数原理。说到计数,不知道大家会第一印象想到什么,我估计会是。。数手指。。没错,小蕉从小学开始就开始数手指,所有20以内的加减法很早就掌握了。研表究明,这估计也是我们现在使用十进制的原因,如果我们每个人每只手都有6只手指,那我们可能就用十二进制了
大蕉
2018/02/05
6830
大数据计数原理1+0=1这你都不会算No.77
完结篇。 这个系列写到这里算是结束了,真是不容易说实话,查了好多好多的资料,真的很难相信懒得要命的我能写完这个系列 T_T。有兴趣的小伙伴可以在菜单看看整个系列。 好啦,开始今天的主题,今天主要呢,聊最后两个基数估计算法,一个是 Adaptive Counting ,一个是 HyperLogLog Counting 。话不多说,直接简单粗暴从 Adaptive Counting 开始吧。 Adaptive Counting 其实就是一个组合算法。原始论文是 《 Fast and accurate traf
企鹅号小编
2018/01/12
6260
大数据计数原理1+0=1这你都不会算No.77
大数据计数原理1+0=1这你都不会算(二)No.50
上一次我们说完了用 HashSet 来进行计数了。我们可以发现,如果我们估计有N个数,那么我们至少需要N*32bit(按照int在32位操作系统下占用32个bit)的空间来进行存储,这太费钱了。有没有
大蕉
2018/02/05
4650
大数据计数原理1+0=1这你都不会算(二)No.50
2023-06-13:统计高并发网站每个网页每天的 UV 数据,结合Redis你会如何实现?
2023-06-13:统计高并发网站每个网页每天的 UV 数据,结合Redis你会如何实现?
福大大架构师每日一题
2023/06/21
5400
2023-06-13:统计高并发网站每个网页每天的 UV 数据,结合Redis你会如何实现?
数据库+算法=?
在开始文章之前,分享一个有趣的小故事: 1927年第五届索维尔会议上,爱因斯坦与波尔关于量子力学的争论达到了白热化。爱因斯坦严肃的说,“波尔,上帝不会投骰子!”。而波尔则回应说,“爱因斯坦,别去指挥上帝应该怎么做!”。爱因斯坦坚决不相信物理学最本质的规律是统计性的。 我们今天聊的也是关于统计的算法,看一看抛硬币的故事 一、提出问题 现在我提出这样一个问题:假设一个网站每日有数以亿计的IP访问,如何高效统计ip访问的规模? 这个问题的规模很大,ip访问记录数以亿计的规模,看上去是很吓人的,但其实我们并不关
腾讯云数据库 TencentDB
2020/08/06
5340
Reids(4)——神奇的HyperLoglog解决统计问题
HyperLogLog 是最早由 Flajolet 及其同事在 2007 年提出的一种 估算基数的近似最优算法。但跟原版论文不同的是,好像很多书包括 Redis 作者都把它称为一种 新的数据结构(new datastruct) (算法实现确实需要一种特定的数据结构来实现)。
乔戈里
2020/03/13
6340
憋瞎说,大数据不是你想的那样 No.114
学生党以及很多没设计过大数据开发的小伙伴呢,都对大数据这么一个领域感到非常非常的好奇非常非常的神秘,我今天就非要戳穿给你们看。
大蕉
2018/10/26
4400
大数据下的高级算法:hyperloglog,统计海量数据下不同元素的个数
如果你被面试到redis,通常对方会问你用过什么数据结构,如果你说使用过hyperloglog那绝对是个加分项,因为对方知道你正在处理基于海量数据和高并发下的问题。上一节我们使用min-count-sketch 算法统计了海量数据下给定元素的重复次数,而hyperloglog正好反过来,它统计整个数据集中不同元素的个数。
望月从良
2023/02/26
6950
大数据下的高级算法:hyperloglog,统计海量数据下不同元素的个数
redis hyperloglog实现原理
HyperLogLog 是一种基数估算算法。所谓基数估算,就是估算在一批数据中,不重复元素的个数有多少。最常见的场景就是统计uv。首先要说明,HyperLogLog实际上不会存储每个元素的值,它使用的是概率算法,通过存储元素的hash值的第一个1的位置,来计算元素数量。这样做存在误差,不适合绝对准确计数的场景。redis中实现的HyperLogLog,只需要12K内存,在标准误差0.81%的前提下,能够统计2的64次方个数据。
程序员小饭
2022/03/03
1.2K0
redis  hyperloglog实现原理
大数据计算:如何仅用1.5KB内存为十亿对象计数
Big Data Counting: How To Count A Billion Distinct Objects Using Only 1.5K
黄规速
2022/04/14
5940
大数据计算:如何仅用1.5KB内存为十亿对象计数
大数据算法——布隆过滤器
今天的文章和大家一起来学习大数据领域一个经常用到的算法——布隆过滤器。如果看过《数学之美》的同学对它应该并不陌生,它经常用在集合的判断上,在海量数据的场景当中用来快速地判断某个元素在不在一个庞大的集合当中。它的原理不难,但是设计非常巧妙,老实讲在看《数学之美》之前,我也没有听说过这个数据结构,所以这篇文章也是我自己学习的笔记。
TechFlow-承志
2020/03/05
4440
大数据算法——布隆过滤器
Redis HyperLogLog 是什么?这些场景使用它,让我枪出如龙,一笑破苍穹
在移动互联网的业务场景中,数据量很大,我们需要保存这样的信息:一个 key 关联了一个数据集合,同时对这个数据集合做统计。
码哥字节
2022/04/08
3.9K0
Redis HyperLogLog 是什么?这些场景使用它,让我枪出如龙,一笑破苍穹
探究Presto SQL引擎(4)-统计计数
本篇文章介绍了统计计数的基本原理以及Presto的实现思路,精确统计和近似统计的细节及各种优缺点,并给出了统计计数在具体业务使用的建议。
2020labs小助手
2022/11/01
1.3K0
推荐阅读
相关推荐
大数据计数原理1+0=1这你都不会算(八)No.60
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档