首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >数亿的用户,如何统计独立用户访问量?

数亿的用户,如何统计独立用户访问量?

作者头像
程序员小明
发布于 2019-11-01 07:12:38
发布于 2019-11-01 07:12:38
2.8K0
举报
文章被收录于专栏:程序员小明程序员小明

众所周至,拼多多的待遇也是高的可怕,在挖人方面也是不遗余力,对于一些工作3年的开发,稍微优秀一点的,都给到30K的Offer,当然,拼多多加班也是出名的,一周上6天班是常态,每天工作时间基本都是超过12个小时,也是相当辛苦的。废话不多说,今天我们来聊一聊拼多多的一道后台面试真题,是一道简单的架构类的题目:拼多多有数亿的用户,那么对于某个网页,怎么使用Redis来统计一个网站的用户访问数呢?

# 使用Hash

哈希是Redis的一种基础数据结构,Redis底层维护的是一个开散列,会把不同的key映射到哈希表上,如果是遇到关键字冲突,那么就会拉出一个链表出来。

当一个用户访问的时候,如果用户登陆过,那么我们就使用用户的id,如果用户没有登陆过,那么我们可以在前端页面随机生成一个key用来标识用户,当用户访问的时候,我们可以使用HSET命令,key可以选择URI与对应的日期进行拼凑,field可以使用用户的id或者随机标识,value可以简单设置为1。

当我们要统计某一个网站某一天的访问量的时候,就可以直接使用HLEN来得到最终的结果了。

优点:简单,容易实现,查询也是非常方便,数据准确性非常高。

缺点:占用内存过大,。随着key的增多,性能也会下降。小网站还行,拼多多这种数亿PV的网站肯定受不了

# 使用Bitset

我们知道,对于一个32位的int,如果我们只用来记录id,那么只能够记录一个用户,但如果我们转成2进制,每位用来表示一个用户,那么我们就能够一口气表示32个用户,空间节省了32倍!对于有大量数据的场景,如果我们使用bitset,那么,可以节省非常多的内存。对于没有登陆的用户,我们也可以使用哈希算法,把对应的用户标识哈希成一个数字id。bitset非常的节省内存,假设有1亿个用户,也只需要100000000/8/1024/1024约等于12兆内存。

Redis已经为我们提供了SETBIT的方法,使用起来非常的方便,我们可以看看下面的例子,我们在item页面可以不停地使用SETBIT命令,设置用户已经访问了该页面,也可以使用GETBIT的方法查询某个用户是否访问。最后我们通过BITCOUNT可以统计该网页每天的访问数量。

优点:占用内存更小,查询方便,可以指定查询某个用户,数据可能略有瑕疵,对于非登陆的用户,可能不同的key映射到同一个id,否则需要维护一个非登陆用户的映射,有额外的开销。

缺点:如果用户非常的稀疏,那么占用的内存可能比方法一更大。

# 使用概率算法

对于拼多多这种多个页面都可能非常多访问量的网站,如果所需要的数量不用那么准确,可以使用概率算法,事实上,我们对一个网站的UV的统计,1亿跟1亿零30万其实是差不多的。在Redis中,已经封装了HyperLogLog算法,他是一种基数评估算法。这种算法的特征,一般都是不存具体的值,而是存用来计算概率的一些相关数据。

当用户访问网站的时候,我们可以使用PFADD命令,设置对应的命令,最后我们只要通过PFCOUNT就能顺利计算出最终的结果,因为这个只是一个概率算法,所以可能存在0.81%的误差。

优点:占用内存极小,对于一个key,只需要12kb。对于拼多多这种超多用户的特别适用。

缺点:查询指定用户的时候,可能会出错,毕竟存的不是具体的数据。总数也存在一定的误差。

上面就是常见的3种适用Redis统计网站用户访问数的方法了。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-10-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序员小明 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
如何用 Redis 统计独立用户访问量?
哈希是Redis的一种基础数据结构,Redis底层维护的是一个开散列,会把不同的key映射到哈希表上,如果是遇到关键字冲突,那么就会拉出一个链表出来。
用户4283147
2022/10/27
1.1K0
如何用 Redis 统计独立用户访问量?
Redis源码阅读(一)总体概览
”昨夜西风凋碧树。独上高楼,望尽天涯路”,我们先从Redis的特性、用途及数据类型这几个方面介绍下Redis,对其有个总体上的认知。
星沉
2022/01/28
8730
Redis 如何存储上亿级别的用户状态?
如何用redis存储统计1亿用户一年的登陆情况,并快速检索任意时间窗口内的活跃用户数量。
肉眼品世界
2021/01/25
8120
Redis 如何存储上亿级别的用户状态?
Redis 实战篇:巧用 Bitmap 实现亿级海量数据统计
在移动应用的业务场景中,我们需要保存这样的信息:一个 key 关联了一个数据集合。
码哥字节
2021/06/15
1.2K0
Redis 实战篇:巧用 Bitmap 实现亿级海量数据统计
如何实现亿级用户在线状态统计?
以 QQ 在线状态统计为例,其典型特征包括:数据量大、内存占用高、实时性要求高。传统的解决方案(如在数据库中为每个用户添加一个在线状态字段,上线设为 1,下线设为 0)在这种场景下显得力不从心。原因如下:
用户11397231
2025/01/24
2450
如何实现亿级用户在线状态统计?
Redis HyperLogLog 是什么?这些场景使用它,让我枪出如龙,一笑破苍穹
在移动互联网的业务场景中,数据量很大,我们需要保存这样的信息:一个 key 关联了一个数据集合,同时对这个数据集合做统计。
码哥字节
2022/04/08
4.1K0
Redis HyperLogLog 是什么?这些场景使用它,让我枪出如龙,一笑破苍穹
探秘HyperLogLog:Redis中的基数统计黑科技
在数字世界中,了解“有多少独特”的问题比看起来要复杂得多。无论是计算一个网站的独立访客数,还是分析一个复杂事件的不同参与者,传统的方法往往既耗时又占空间。然而,有了Redis中的HyperLogLog,这一切都变得简单和高效。它通过一种巧妙的概率算法,使得我们可以用极小的空间来估算巨大数据集的基数。让我们一起揭开HyperLogLog的神秘面纱,看看它是如何在海量数据中找到独一无二的。
一只牛博
2025/05/31
1500
【Python爬虫实战】高效数据去重:利用Redis优化爬虫性能
在网络爬虫的开发过程中,数据的去重是一个至关重要的环节。随着信息的快速增长,重复的数据不仅占用了宝贵的存储空间,还可能导致后续的数据处理效率降低。因此,掌握有效的去重方法可以帮助开发者提高爬虫的性能和可靠性。本文将深入探讨多种数据去重的策略,尤其是如何利用Redis这一高效的工具来优化去重流程。
易辰君
2024/11/07
4920
2023-06-13:统计高并发网站每个网页每天的 UV 数据,结合Redis你会如何实现?
2023-06-13:统计高并发网站每个网页每天的 UV 数据,结合Redis你会如何实现?
福大大架构师每日一题
2023/06/21
5520
2023-06-13:统计高并发网站每个网页每天的 UV 数据,结合Redis你会如何实现?
使用Redis bitmaps进行快速、简单、实时统计
转载自 https://www.cnblogs.com/fvsfvs123/p/4293203.html
allsmallpig
2021/02/25
1.7K0
场景题:如何实现亿级用户在线状态统计?
近两年不知道大家有没有发现,现在的面试中《场景题》问的越来越多了,一方面是就业市场竞争者较多所带来的必然结果;另一方面是随着时间的推移,公司对于应聘者的技术要求也越来越高了,这时候只会八股文就不够了,你还得会更难的场景题才行。
磊哥
2025/01/15
2290
场景题:如何实现亿级用户在线状态统计?
大量数据去重bitMap位图解决方案
什么是Bitmap Bit-map就是用一个bit位来标记某个元素对应的Value(若元素存在bit位置为1,不存在则置为0)。可创建一个整型数组(如byte数组,int数组,long数组)来表示
高大北
2023/06/23
1.5K0
给你一个亿的keys,Redis如何统计?
不知你大规模的用过Redis吗?还是仅仅作为缓存的工具了?在Redis中使用最多的就是集合了,举个例子,如下场景:
Bug开发工程师
2020/12/15
1.2K0
给你一个亿的keys,Redis如何统计?
redis的bitset实战
序 本文主要研究一下redis的bitset数据结构的用场 相关命令 SETBIT 时间复杂度为O(1) setbit login.20180906 102400000 0 setbit login.20180905 201400000 1 GETBIT 时间复杂度为O(1) getbit login.20180905 201400000 BITOP 时间复杂度为O(N) bitop or login.9m.week1or login.20180905 login.20180906 getbit login
code4it
2018/09/17
2K0
【Redis基础】Redis新数据类型(Bitmaps,HyperLoglog,Geospatial)命令简介与案例演示
Bitmaps 并不是实际的数据类型,而是定义在String类型上的一个面向字节操作的集合。因为字符串是二进制安全的块,他们的最大长度是512M,最适合设置成2^32个不同字节。 bitmaps的位操作分成两类:1.固定时间的单个位操作,比如把String的某个位设置为1或者0,或者获取某个位上的值 2.对于一组位的操作,对给定的bit范围内,统计设定值为1的数目(比如人口统计)。 bitmaps最大的优势是在存储数据时可以极大的节省空间,比如在一个项目中采用自增长的id来标识用户,就可以仅用512M的内存来记录40亿用户的信息(比如用户是否希望收到新的通知,用1和0标识)
小尘要自信
2023/10/10
3630
用Redis bitmap统计活跃用户、留存
Spool的开发者博客,描述了Spool利用Redis的bitmaps相关的操作,进行网站活跃用户统计工作。
黄规速
2022/04/14
1.3K0
用Redis bitmap统计活跃用户、留存
如何用redis统计海量UV?
我们先思考一个常见的业务问题:如果你负责开发维护一个大型的网站,有一天老板找产品经理要网站每个网页每天的 UV 数据,然后让你来开发这个统计模块,你会如何实现?
程序员小饭
2021/08/13
1.3K0
6.Redis新数据类型
现代计算机用二进制(位) 作为信息的基础单位, 1个字节等于8位, 例如“abc”字符串是由3个字节组成, 但实际在计算机存储时将其用二进制表示, “abc”分别对应的ASCII码分别是97、 98、 99, 对应的二进制分别是01100001、 01100010和01100011,如下图
一个风轻云淡
2022/11/13
3420
6.Redis新数据类型
Reids(4)——神奇的HyperLoglog解决统计问题
HyperLogLog 是最早由 Flajolet 及其同事在 2007 年提出的一种 估算基数的近似最优算法。但跟原版论文不同的是,好像很多书包括 Redis 作者都把它称为一种 新的数据结构(new datastruct) (算法实现确实需要一种特定的数据结构来实现)。
乔戈里
2020/03/13
6430
redis统计访问次数
在现代互联网应用中,统计访问次数是一项常见而重要的任务。无论是网站、移动应用还是后端服务,了解用户访问行为对于改进产品、优化用户体验至关重要。Redis作为一种高性能的内存数据库,可以很好地用于实现访问次数统计功能。本文将介绍Redis统计访问次数的原理、实现方法以及常见的应用场景。
GeekLiHua
2025/01/21
4460
推荐阅读
相关推荐
如何用 Redis 统计独立用户访问量?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档