前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >浅谈AB Test实验设计——基础篇

浅谈AB Test实验设计——基础篇

作者头像
刘健阁
发布于 2021-08-13 05:11:20
发布于 2021-08-13 05:11:20
3.6K0
举报
文章被收录于专栏:阁下 HE阁下 HE

聊一聊AB Test,近些年在增长和数据领域比较流行的话题。

首先我们看下,为什么要做AB Test,一般有2个目的:

1、判断哪个更好:例如,有2个UI设计,究竟是A更好一些,还是B更好一些,我们需要实验判定

2、计算收益:例如,最近新上线了一个直播功能,那么直播功能究竟给平台带了来多少额外的DAU,多少额外的使用时长,多少直播以外的视频观看时长等

我们一般比较熟知的是上述第1个目的,对于第2个目的,对于收益的量化,计算ROI,往往对数据分析师和管理者非常重要。

对于一般实验,本质上就是流量均分为几个组,每个组赋予不同的策略,根据几个组数据,例如:留存、点击率、人均时长等核心指标,选择最好的策略。

------ 实验设计 ------

实验的几个基本步骤一般如下

------ 流量分配 ------

实验设计时,我们追求:

1、希望尽快得到实验结论,快速决策

2、希望收益最大化

3、用户体验影响最小

因此经常需要在权衡分配流量,一般有以下几个情况:

1、实验不影响用户体验:如UI实验、文案类实验等,一般可以均匀分配流量实验,可以快速得到实验结论

2、实验不确定性较强的实验:如产品新功能上线,一般需小流量实验,尽量减小用户体验影响,在允许的时间内得到结论

3、希望收益最大化的实验:如运营活动等,尽可能将效果最大化,一般需要大流量实验,留出小部分对照组用于评估ROI

根据实验的预期结果,大盘用户量,确定实验所需最小流量。这里涉及较多的数学计算,为了方便起见,一般找个专门计算样本量的网站就好。

举个例子:

1、以次日留存率为例,目前大盘留存率80%,预期实验能够提升0.2pp

注:也可为渗透率、留存率等等,只要是比例值就可以,如果估不准,此处可低估,不可高估,也就是0.2pp是预期能够提升的最小值

2、网站计算,最少样本量就是63W

注:这里的最少样本量,指的是最少流量实验组的样本量

3、如果我们每天只有5W的用户可用于实验,63 / 5 = 13天,我们需要至少13天才能够得到实验结论

注:5W的用户,每个实验组是5W用户,如果只有1个实验组,就是实验组+对照组至少10W

网址:https://www.evanmiller.org/ab-testing/sample-size.html

说明:

这里并不特别严谨,原则上同一个实验组样本之间应该是独立的,但实际上我们分多天实验,不同天相同用户重复计入了样本量,样本不独立。

初阶实验可以暂时这样计算,后续我会有专门的文章讨论这里,另外,对于其他类型指标样本量的计算,我们也在后续的文章另行讨论。

------ 实验效果分析 ------

我们以一个稍复杂点的运营活动实验为例,活动有方案1、方案2,同时为了量化ROI,对照组没有运营活动

作为活动策划者,实验效果的分析是最重要的环节,我们要知道哪个更好,还要回答很多问题:

1、方案1和方案2,哪个效果更好?

2、哪个ROI更高?

3、长期来看哪个更好?

4、不同群体有差异吗?

第1个问题:方案1和方案2,哪个效果更好?

我们要运用大学时候学习过的假设检验方法了

对于留存率、渗透率等漏斗类指标,采用卡方检验

网址:https://www.evanmiller.org/ab-testing/chi-squared.html

对于人均时长类等均值类指标,采用t检验

网址:https://www.evanmiller.org/ab-testing/t-test.html

通过上面的假设检验,如果结论置信,我们就能够得到方案1和方案2在哪项指标更好(有显著性差异);

如果不置信,则说明尽管方案1和方案2的指标可能略有差异,但很可能是数据正常波动产生。

第2个问题:哪个ROI更高?

一般情况下,大型的运营活动,有活动相比无活动,留存、人均时长等各项指标均会有较明显提升,显著检验都能够通过,我们不再重复上述的假设检验过程。

对于ROI的计算,成本方面,每个实验组成本可以直接计算。

对于收益方面,就要和对照组相比较,假定以总日活跃天(即DAU按日累计求和)作为收益指标,需要假设不做运营活动,DAU会是多少,需要以下步骤:

1、实验组假设不做活动日活跃天 = 对照组日活跃天 * (实验组流量 / 对照组流量)

2、实验组收益 = 实验组日活跃天 - 实验组假设不做活动日活跃天

这样就可以量化出每个方案的ROI。

第3个问题:长期来看哪个更好?

这里就要考虑新奇效应的问题了,一般在实验上线前期,用户因为新鲜感,效果可能都不错,因此在做评估的时候,需要观测指标到稳定态后,再做评估。

例如有的时候出现,刚刚上线前期,实验组效果更好,但是经过一段时间,用户的新鲜感过去了,实验组的效果可能更差,因此,从长远收益来看,我们应该选择对照组,是实验组的新奇效应欺骗了我们。

在做实验分析时,应剔除新奇效应的部分,待平稳后,再做评估。

第4个问题:不同用户群体有差异吗?

很多情况下,对新用户可能实验组更好,老用户对照组更好;对年轻人实验组更好,中年人对照组更好。

作为数据分析师,分析实验结论时,还要关注用户群体的差异

说明:初学者可以简单的分群对比差异,在数据专业方面叫「维度下钻」,现在先进的实验分析方法已经可以实现自动维度下钻和方差缩减,后续我们有时间再详细介绍。

------ 实验结束 ------

实验结束后,反馈结论同时,还要充分利用实验数据探索分析,一般:

1、反馈实验结论,包括直接效果(渗透、留存、人均时长等)、ROI

2、充分利用实验数据,进一步探索分析不同用户群体,不同场景下的差异,提出探索性分析

3、对于发现的现象,进一步提出假设,进一步实验论证

------ 更高级的实验 ------

对于长线业务,可能同时有数十个实验同时进行,不但对比每项小迭代的差异,同时对比专项对大盘的贡献量、部门整体对大盘的贡献量,这样就需要运用到了实验的层域模型,详见下一篇文章介绍。

例如:

1、对比每个产品细节迭代的结果

2、对比每个专项在一个阶段的贡献

3、对比整个项目在一个阶段的贡献

感谢阅读,欢迎讨论,可关注公众号后留言。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-07-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 阁下 HE 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
如何设计一个 A/B test?
作者:刘健阁(Jiange Liu),PCG 数据分析师 实验设计 AB Test 实验一般有 2 个目的: 判断哪个更好:例如,有 2 个 UI 设计,究竟是 A 更好一些,还是 B 更好一些,我们需要实验判定 计算收益:例如,最近新上线了一个直播功能,那么直播功能究竟给平台带了来多少额外的 DAU,多少额外的使用时长,多少直播以外的视频观看时长等 我们一般比较熟知的是上述第 1 个目的,对于第 2 个目的,对于收益的量化,计算 ROI,往往对数据分析师和管理者非常重要。 对于一般的 ABTest 实验
腾讯大讲堂
2020/03/27
2.4K0
「求职」22道数据分析面试题,涵盖95%常考知识点『AB实验篇-中』
解决痛点:本系列为大家总结了面试中常考的22道AB实验问题,涵盖接近100%的知识点,对于准备找工作的你会有很大帮助。
小火龙说数据
2022/06/30
7510
「求职」22道数据分析面试题,涵盖95%常考知识点『AB实验篇-中』
「经验」带你掌握AB实验最佳流程
阅读建议:本文是实战中总结出的「AB实验最佳流程」,其中内容涉及数据分析、产品、运营、研发的工作,帮助你更科学的评估实验。由于篇幅较长,建议「关注」「收藏」,闲暇时间拿来品品。
小火龙说数据
2022/06/30
4.3K0
「经验」带你掌握AB实验最佳流程
「求职」22道数据分析面试题,涵盖95%常考知识点『AB实验篇-下』
解决痛点:本系列为大家总结了面试中常考的22道AB实验问题,涵盖接近100%的知识点,对于准备找工作的你会有很大帮助。
小火龙说数据
2022/06/30
6170
AB实验的踩坑之路
AB实验是互联网行业产品功能优化和迭代常用的工具,覆盖了大部分的需求场景,如内容推荐、搜索、商业化、UI迭代等。从统计学的角度出发,AB实验本质上是使用假设检验去证明假设是否成立,从而达到验证我们想法的目的。本文记录了在日常使用AB实验中涉及到的一些比较常见的陷阱。
曲奇
2022/05/09
1.3K0
AB实验的踩坑之路
一文助你上年薪30w,史上最全AB-Test知识点
越来越多的公司重视AB测试,按照猫哥的经验,之前会Excel就行,SQL是加分项。后来变成了必须懂SQL,AB测试是加分项。再到后来变成了,AB测试和SQL都是必会的东西。
巡山猫说数据
2021/12/15
1.5K0
一文助你上年薪30w,史上最全AB-Test知识点
笔记︱一轮完美的A/B Test 需要具备哪些要素?
文章[2] 策略的改变,不是由我们随便“拍脑袋”得出,而是一种建立在数据基础上的思维方式,数据反馈会告诉我们做的好不好,哪里有问题,以及衡量可以带来多少确定性的增长。
悟乙己
2021/12/10
3.3K0
笔记︱一轮完美的A/B Test 需要具备哪些要素?
AB实验相关流程
核心指标是用于判断该实验是否显著,观测指标用于判断该实验对其余指标的影响。另外,可以设反向指标,以观测该实验是否会带来一些负面影响。
用户1217611
2024/05/10
4000
AB实验相关流程
笔记︱盘点实验科学的三种实验模型(A/B实验、因果推断、强化学习)
含有大量观测数据的情况下,可以使用各类合成A/B的方式,包括matching、合成控制等
悟乙己
2022/05/31
1.8K0
笔记︱盘点实验科学的三种实验模型(A/B实验、因果推断、强化学习)
A/B Test︱一轮完美的A/B Test 需要具备哪些要素(一)
文章[2] 策略的改变,不是由我们随便“拍脑袋”得出,而是一种建立在数据基础上的思维方式,数据反馈会告诉我们做的好不好,哪里有问题,以及衡量可以带来多少确定性的增长。
悟乙己
2022/01/21
9.2K0
A/B Test︱一轮完美的A/B Test 需要具备哪些要素(一)
干货 | 携程火车票基于因果推断的业务实践
携程作为旅游平台,跟用户需求息息相关,理解和识别各个策略/系统对转化/收益的因果关系尤为重要,在这个过程中需要将影响因变量的其他因素进行控制,但这些因素通常是复杂且难以测量的。在关系识别困难的情况下,如何使用更为科学的方法,对策略进行微观和宏观的建模分析,如何系统性的评估各种策略的长期影响,是要解决的重要问题。
携程技术
2023/09/06
9220
干货 | 携程火车票基于因果推断的业务实践
AB试验(五)实验过程中的一些答疑解惑
对于第二种原因,尝试提高power:通过样本量公式,可以发现提高样本量或者减小方差即可。
HsuHeinrich
2023/10/10
9380
AB试验(五)实验过程中的一些答疑解惑
如何做一次完美的 ABTest?
越来越多的公司都在尝试 ABTest,要么是自己搭建系统,要么依赖于第三方的系统。那么在我们进行ABTest的时候,必备的基础知识有哪些?该如何一步一步的进行AB实验呢?本文将根据 AB 实验的流程带领大家一窥究竟。
2020labs小助手
2020/06/11
1.9K0
AB实验设计-通用内容说明
AB实验主要分为两部分,第一部分搞清楚自己需要实验的场景,第二部分是基于不同的场景如何设计和开展实验。
平常心
2022/02/15
2.8K2
AB test 业务价值、原理流程和实际案例
当我们设计了一个新的功能模块、策划了某种活动或者有多种方案不知如何抉择时,想要验证新的功能模块或者活动上线是否能给业务带来显著的收益,但由于受到个人思维的局限性以及全量用户的不可调研性,可能会导致一个功能的预期效果与实际线上后的效果存在认知、实用上的差异。
猴子数据分析
2022/05/19
1.7K0
AB test 业务价值、原理流程和实际案例
活动、节假日、促销等营销方式的因果效应评估——方法模型篇(二)
笔者近两年都在做智能营销方面的探索,不过最近想稍微切换自己的研究赛道,所以最近想把智能营销方面细枝末节的一些思考发出来。 关于活动、节假日、促销等营销方式的因果效应评估前篇是《活动、节假日、促销等营销方式的因果效应评估——特征工程篇(一)》是把给入模型时特征加工的方式列举一下,本篇是想简单总结如何评价一个活动营销方式的好坏;当然方法本身不胜枚举,只能在有限视野里面进行归纳。
悟乙己
2022/05/11
4.4K0
活动、节假日、促销等营销方式的因果效应评估——方法模型篇(二)
AB试验(四)基于规范流程的一个案例分析
由于弹窗对用户是易于感知的变化,因此为了保证用户体验的连贯性,这里选择用户为最小的实验单位,具体的为用户ID
HsuHeinrich
2023/09/25
4410
AB试验(四)基于规范流程的一个案例分析
A/B Test 的统计原理和效果解读
持续快速有效的 A/B Test 是实现业务从十到百增长的必杀器,而背后的黑科技来源于基础的统计理论。为此,本文将介绍做 A/B Test 所涉及的重要统计学知识,以帮助更好的设计实验和解读实验结果,做出科学有效的数据驱动决策。
阿泽 Crz
2020/12/11
2.1K0
A/B Test 的统计原理和效果解读
微信基于 StarRocks 的实时因果推断实践
因果推断的核心概念是,从数据中推断一个变量对另一个变量的影响程度。简单来说,它帮助我们了解因果关系的存在和影响力。例如,如果我们上线了一个新的算法模型,能否提升 DAU(日活跃用户)?又或者一个新的产品UI能否增加点击率?这些问题本质上是在问:我们当前所采取的措施是否有效?做得是否正确?因果推断正是用来回答这些问题的,它帮助我们做出科学的决策。
StarRocks
2025/03/13
1040
微信基于 StarRocks 的实时因果推断实践
AB测试实战
严谨的产品迭代过程(策略,算法, 界面调整, 功能调整), 一定要先经过AB测试, 在少部分流量上进行测试, 没问题了再逐渐放量
@小森
2024/06/06
1960
AB测试实战
相关推荐
如何设计一个 A/B test?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档