什么是AB测试? 如何快速上手AB 测试?
2023-08-15 00:35:41 0 举报
AI智能生成
什么是AB测试?如何快速上手AB测试?
作者其他创作
大纲/内容
AB测试是什么?
正式发版上线前,将用户流量对应分成几组,
让用户分别看到不同的方案设计,根据几组用户的真实数据反馈,
进行数据效果的校验。亦被称为“对照实验”或“小流量随机实验”
让用户分别看到不同的方案设计,根据几组用户的真实数据反馈,
进行数据效果的校验。亦被称为“对照实验”或“小流量随机实验”
AB测试的
应用场景
应用场景
产品
功能迭代
用户路径设计
UI&交互优化
运营
活动页面优化
推送方案择优
可视化编辑
研发
推荐算法优化
灰度发布
市场营销
投放落地页优化
以单链接投放多个页面
投放流量
A/B测试比较成熟的公司中,可能并不局限于只有A、B两个版本,
可能会有ABC测试、ABCD测试,甚至是ABCDE测试。
(但小公司或数据规模不大的公司做AB测的少)
可能会有ABC测试、ABCD测试,甚至是ABCDE测试。
(但小公司或数据规模不大的公司做AB测的少)
AB测试
背后的逻辑
背后的逻辑
对照:有其他对照组作为对比,就能真正看出来效果。
而且不同组间的效果差异要足够明显,才能验证我们的判断
而且不同组间的效果差异要足够明显,才能验证我们的判断
随机:为了排除实验条件以外的干扰因素,
需要确保两个组的用户是随机选取的,
这是为了排除用户差异对实验结果的影响
需要确保两个组的用户是随机选取的,
这是为了排除用户差异对实验结果的影响
大样本:这里的样本量是指数据量,包括用户、
行为和时间跨度,样本量越大,越容易排除个体差异的影响,
也更容易验证统计上的显著性
行为和时间跨度,样本量越大,越容易排除个体差异的影响,
也更容易验证统计上的显著性
基本
名词概念
名词概念
实验组、对照组
假设在实验中,所抽取的用户被随机地分配到A组和B组中,
A组用户在产品中体验到新策略,B组用户在实验中体验的仍旧是旧策略。
在这一实验过程中,A组便为实验组,B组则为对照组。
A组用户在产品中体验到新策略,B组用户在实验中体验的仍旧是旧策略。
在这一实验过程中,A组便为实验组,B组则为对照组。
互斥组
互斥组,也称互斥层、实验层。 互斥实验,指的是互斥组中的所有实验都不会共享用户,
开在同一实验层的多个实验中,流量只能命中其中一个,即同层实验的流量之间是相互排斥的。
如果一个用户/设备命中了实验A,就不会命中该互斥组中的其他实验。
开在同一实验层的多个实验中,流量只能命中其中一个,即同层实验的流量之间是相互排斥的。
如果一个用户/设备命中了实验A,就不会命中该互斥组中的其他实验。
正交实验
参数、参数类型、参数值
在A/B测试的实验中,每一个对照组和实验组可以有1个参数也可以有多个参数,
每个参数都会有参数类型(如 :String、Number、Boolean),每个参数还会有参数值。
每个参数都会有参数类型(如 :String、Number、Boolean),每个参数还会有参数值。
对于注册文案的实验,我们可以建立一个String类型的参数
(命名为:register_name),对照组的参数值为"一键注册",
实验组的参数值为"立即注册"。
(命名为:register_name),对照组的参数值为"一键注册",
实验组的参数值为"立即注册"。
指标
开一个实验时,目的是对比对照组和实验组的某个或者某几个指标
过滤条件
在实验中增加一些限制条件,规定被实验命中的用户必须符合(或不符合)这些条件,
进而达到缩小用户集群、精准找到用户的目的,这种限制条件即“过滤条件”,亦称filter。
进而达到缩小用户集群、精准找到用户的目的,这种限制条件即“过滤条件”,亦称filter。
白名单用户
实验正式开启之前,通常需要先选择几名用户进入测试阶段,
观察实验是否能够正常获取想要收集的数据,或客户端是否有bug等。
参与这一步的用户被称为“白名单用户”。
观察实验是否能够正常获取想要收集的数据,或客户端是否有bug等。
参与这一步的用户被称为“白名单用户”。
命中
用户经过随机分配后,进入实验组或对照组,参与到实验之中,
即称为用户被实验“命中”;反之则为“未命中”。
即称为用户被实验“命中”;反之则为“未命中”。
置信区间
置信度区间就是用来对一组实验数据的总体参数进行估计的区间范围。
绝对差值
如实验组指标值为b,对照组指标值为a;绝对差值为b-a
相对差值
如实验组指标值为b,对照组指标值为a;相对值为(b-a)/a
显著性
指零假设为真的情况下拒绝零假设所要承担的风险水平,又叫概率水平,或者显著水平。
AB测试的工作组成
流量分配
域:域是指整体流量的分区,域之间是互斥的。
层:层是指某个域内全部流量的一个观测角度。
桶:在每个层中,我们使用独立的Hash函数对用户进行取模,
将用户均匀的分配至N个实验桶中。桶与桶之间是互斥的
将用户均匀的分配至N个实验桶中。桶与桶之间是互斥的
实验设计
单因素
实验设计
实验设计
实验中只有一个影响因素变量,其他的内容都保持不变的实验方法
多因素
实验设计
实验设计
实验中有多个影响因素变量。
数据分析
考虑空跑期差异:
空跑期,就是指什么策略也不做,
纯看两个组本身的固有差异,作为判断的基础。
而后用实验期的差异减去空跑期差异,
就得到了实验的真实收益
纯看两个组本身的固有差异,作为判断的基础。
而后用实验期的差异减去空跑期差异,
就得到了实验的真实收益
统计检验
不考虑空跑期差异,而是直接看实验期里两个组的明细数据,
输入到统计软件中进行统计分析,看是否显著(P<0.05)。
如果显著,说明两组有明显差异
输入到统计软件中进行统计分析,看是否显著(P<0.05)。
如果显著,说明两组有明显差异
注意事项
1.实验组控制组数量相等
2.不要反复统计
3.上线后及时观察一下
4.评估长期影响
保留一个全局对照组(比如5%的流量)
全局对照组相对稳定,一个季度,甚至一年都不进入任何测试
长期处于“控制组”状态,
用来对比各个测试全面上线后的长远影响,
出现情况时就需要部分或者全面回滚相应测试。
当然,这个全局对照组的比例不能太大,
否则机会成本太高。
保留一个全局对照组(比如5%的流量)
全局对照组相对稳定,一个季度,甚至一年都不进入任何测试
长期处于“控制组”状态,
用来对比各个测试全面上线后的长远影响,
出现情况时就需要部分或者全面回滚相应测试。
当然,这个全局对照组的比例不能太大,
否则机会成本太高。
5 排除异常值
6.服务端做控制更好
7.不要反复用同一组用户实验
A/B Testing 具体步骤?
对于一个初创项目,产品刚刚孵化,这种时候不太适合做 A/B 测试,因为这个时候我们的目标相对是比较明确的,就是快速形成“原型”
产品和大框架,把“产品生下来”,因此也基本上不会有太多抠细节的部分。而当产品到了一定的阶段,模式已经成型比较稳定,相对处于快速迭代的阶段,就比较适合利用 A/B Testing 来助力业务发展了。
产品和大框架,把“产品生下来”,因此也基本上不会有太多抠细节的部分。而当产品到了一定的阶段,模式已经成型比较稳定,相对处于快速迭代的阶段,就比较适合利用 A/B Testing 来助力业务发展了。
AB实验平台
百度: 峙一 AB实验平台:https://ab.baidu.com/gabhome
腾讯:腾讯云实验平台:https://abtest.qq.com/
字节:火山引擎 https://www.volcengine.com/product/datatester
最快速上手的方法:去这个几平台按照操作文档操作体验一下
0 条评论
下一页