样本|聊聊A/B实验那些事儿

编辑导语:作为一个大部分业务都依赖的重要引擎,在实际使用过程中却发现会遇到各种各样的问题。这篇文章详细介绍了数据驱动的核心引擎——A/B实验,分别从过程、节奏以及结果进行阐述,推荐想要了解A/B实验的童鞋阅读。
样本|聊聊A/B实验那些事儿
文章插图
A/B实验是数据驱动的核心引擎,目前大部分业务都依赖它进行决策,但在实际运行过程中会遇到各种各样问题。
下面让我一起聊聊A/B实验那些事儿。
一、AB实验设计过程首先聊聊实验设计过程,实验设计过程包含4个核心问题:
问题1:随机分桶单元是什么?大部分随机分桶是按用户维度,用户维度有登录id、设备id、匿名用户id(cookie),除cookie在时间纵向上不稳定,登录id和设备id均是长期稳定的。
分桶方法:目前有很多A/B实验平台都可以支持分桶,主要通过设备id和层级id使用Hash函数进行分桶,同样也存在按尾号分桶情况,若是尾号分桶需要考虑各个尾号样本数据是否均衡,例如是否会存在某个尾号经常做实验,造成样本不均衡。
问题2:我们的目标群体是什么?思考实验的目标群体是什么,实验的背景和目标是什么,是实验设计的核心问题,若实验是一个以特定群体为目标意味着你只想对具有某一特征下的特定用户运行实验,那么触发条件变得尤为重要,因实验触发条件不同可能会导致幸存者偏差等各类问题,从而导致实验结果不可信。
问题3:实验需要多大的样本量?实验需要多大样本量,涉及到实验功效是否充足情况,对结果的精确度有直接影响。样本量越大,样本的功效越好,实验结果越可信,但同时耗费的资源也越多,如果样本量太小,实验功效不足,结果不可信,那么如何计算最小样本量,可以参考下面公式:
样本|聊聊A/B实验那些事儿
文章插图
问题4:实验需要运行多久?对于线上实验,用户随之时间进入实验,时间越长,用户数越多,统计功效通常也会随之提高,考虑到用户会反复访问,用户随时间的累计可能是次线性的,即第1天来N人,第2天累计进入实验用户
同样因周末与工作日用户群体不同,也会有周末效应,季节性也同理。
有些实验在初始阶段有较大或较小的新奇效应,也会影响数据指标,因此建议实验至少运行一周。
二、A/B实验放量节奏通过逐步放量的流程来控制新功能发布带来的未知风险是很普遍的,我们需要衡量速度、质量和风险。
样本|聊聊A/B实验那些事儿
文章插图
第一阶段目标降低风险:可以建立测试人群,测试实验运行风险,观察实时或近实时结果,尽早了解实验是否有风险,如遇问题可快速回滚。
第二阶段目标保证实验质量,我们建议最后保持一周,如有初始或新奇效应,则需要更长时间,若仅运行一天的实验,其结果将倾向于重度用户,根据经验,如果没有发现初始或新奇效应,则一周之后每多运行一天带来的额外收益都会越来越小。
第三阶段目标通过实验进行决策,通过分析实验核心指标,确定实验是全量或者放弃。
若实验期间提前达到统计显著,根据经验,是不建议提前全量,通常使用的统计学假设是在实验结束时进行统计测试,而提前提前结束实验违反了假设,会导致一些虚假的成功。
三、A/B实验结果分析陷阱1:样本量不均衡实验分析第一步检验实验组与对照组样本是否均衡,实验组UV/对照组UV=1代表均衡,如果实验组和对照组样本量不均衡,那可能在实验阶段发生漏洞导致的,那么我们不应该相信任何其他指标。产生样本量不均衡有多种原因,主要是以下原因: