ab实验 AB实验你真的了解嘛
-14号-
这是贝韦瑟的第14篇文章
全文约2756字,建议阅读前收藏
1为什么要做A/B实验?
A/B实验是一种验证假设的方法。其核心方法和原则是控制实验和假设检验。
在实际实验中,会从群体中抽取一些个体形成样本单元,从个体实验结果中推断出整体结果。
1-1.实验原因
由于对照实验遵循单变量原理,通过比较可以找到因果关系,根据实验结果可以量化正负影响。
当一个新的功能实现时,我们无法准确预测上线后会是盈利还是亏损。从风险和成本的角度考虑,我们将小流量进行划分验证。
小规模实验也意味着大部分可以由单个R&D团队完成,时间和效率都有保障。
1-2.适用场景
A/B实验解决了策略优化的问题,可以帮助我们从可选策略中选择最佳策略。
它可以让我们在已经到达的山上越爬越高,但不能用来发现新的山脉。
2明确目的
在数据分析过程中,一般的顺序是:相关性> >因果性> >效果。
首先,我们可以通过数据分析来洞察相关性,然后通过实验提出假设,并以模糊的方式预测其因果关系。证明成功后,根据第一次实验结果,经过不断优化,会做出明确的预测。
3确认指标
1)正负指标
积极指标一般按照实验路径制定,是对策略的直接评价,如:留存数->点击数->访问量->交易数。
负面指标适用于结果指标相似的情景。比如实验策略是发布微信官方账号模板,其中两组交易数量相近,但实验组导致用户通关量激增。
如果正收益小于负收益,就要分析问题,考虑优化实验或者停止实验。
2)结果、过程和观察指标
结果指标是实验的目的,过程指标反映如何完成。观测指数是指相关指数,多用于估算增加量空。比如交易次数增加,但平均金额低或者购买对象只覆盖我。
根据观察指标,我们可以估算上升空并设计下一个实验。这三个指标在前面的《数据分析的逻辑思维和分析方法》中已经全面描述过了,这里不再赘述。感兴趣的朋友可以参考这篇文章。
4制定战略
4-1.实验类型
1)互斥实验
遵循单变量原理的代表是互斥实验,即用户只能同时进行一个实验,流量的互斥保证了实验结果不受干扰。
然而,随着实验越来越多,可以同时进行实验的用户数量减少。流量不足,样品代表性差。如果要等上一次实验结束后再进行下一次实验,验证周期会增加,效率会降低。
2)正交试验
为了解决互斥实验的流量问题,使用了正交实验,也称为分层实验。这里,分层是基于不同的实验。
正交实验可以共享流量,同时进行多个实验,但我们需要保证各层的划分参数是独立的,互不影响。
例如,上一层的绿色字体不能与绿色背景正交。但是,绿色字体可以与蓝色背景正交,绿色字体也可以与推荐字体正交。
最后,还有一个小细节。实验流程的来源不仅仅是之前的实验。这里涉及的内容请参考谷歌的论文《重叠实验基础设施》。
4-2.试验设计
实验设计要注意以下几点:先粗后细;第二,深度再广度。当产品体验明显不佳时,要快速迭代优化。不是所有事情都需要数据和实验证明。
5选择样品
5-1.取样原理
1)唯一性原则
唯一性是指用户在进行实验时,从头到尾只打同一个策略。帮助我们更准确的属性,让用户保持同样的体验。
2)一致性原则
一致性原则有两种定义:数量的一致性和特征的一致性。
前者是为了保证组与组之间的样本数量,减少因数量少而导致的实验波动,而后者可以使样本更具代表性。假设女性在群体中的比例过高,实验的结论无法推断男性在本次实验中是否有类似的行为。
特征的一致性也要与实验目的相结合。如果实验指标是某个按钮的点击率,而实验组样本的点击率已经在高基线上,可能无法分析策略的优劣。
5-2.抽样法
1)完全随机分组
完全随机分组,又称CR,是最常见的随机分组方法之一。一种常见的实现形式是对一个ID字段进行哈希,然后取模10,根据结果值输入不同的组。
如果随机选择ID进行哈希取模,就是简单的随机采样。如果先对ID排序,然后每隔6取一次散列模,我们也称之为等距采样。
2)随机重新分组
完全随机分组,不考虑样本的特征是否一致,可能导致某一组样本的结果更高或更低。为了解决这个问题,我们可以通过AA实验或使用重新随机分组来观察样本的差异。
原理是在每次随机分组后,验证组与组之间的差异是否小于设定的阈值。如果差值大于阈值,则重新分组,否则停止分组。
与完全随机分组相比,该方法更准确。由于缺乏重新运行的基础,获得合适的样本是概率性的,这也可能会造成大量的时间消耗。一般来说,样本量越大,复试次数越少。
3)自适应分组
自适应分组是滴滴AI Lab团队自主研发的分组方法,分组一次后,可以使选取的观察指标分布基本一致。
在每个分组中,它记录当前分配的样本数量和分布,并在当前对象被分配到该组后计算该组的特征一致性,从而决定应该将其分配到哪个组。
6实验分析
6-1.大体积/总体积
A/B实验是一种小流量验证的实验方式,那么应该如何增加体积呢?
前提如下:
1)效果显著,保证了至少95%的可靠性。
2)正指数值>负指数值
3)效果稳定,不会因时间段等要素的变化而剧烈波动。
增加体积的常见方式有两种,即开放流和实验普及。流开包括实验中对照组和实验组之间的流量划分,也可以在源头添加样本。
推广实验就是在其他有特点和行为的群体中推广实验。
6-2.重新实验和终止
重新实验的原因是:不确定是否有效果->没有效果->没有明显效果->负反馈。如果负反馈影响了核心过程,我们应该考虑终止实验。
两者的分析方法和需求分析相似。可以参考逻辑树的“自下而上”的方法,先将每个环节可能出现的问题进行聚合,然后依次向上聚合。
7几种理论
1)辛普森悖论
团体中占优势的一方有时在整体上是劣势的一方。
2)幸存者偏差
只看结果,忽略呈现结果的用户。
3)新奇效应
实验策略一开始反响不错,但很快消失了一段时间。
前两种主要用于探索样品的代表性和均匀性。新奇效应要在单一变量下反复长时间实验,保证实验结果不受实验影响。
写在最后
这篇文章总觉得很难。从双盲实验到A/B实验,这两个词被上千篇文章解读了很多遍,我连前言都写不出来。最终选择的切入点是逻辑梳理和知识再提炼。
还有就是因为再次提炼,会根据自己的理解省略预建和在线监测等环节,其中监测更适合计费章,而数学和算法的原理已经被朋友们总结出来了,感兴趣的朋友可以看看下面的参考资料。
谢谢你看到这里,谢谢你。
参考材料
1.腾讯PCG-E计划:实验设计和决策基础
2.ABtest,假设检验和流量分配
https://www.6aiq.com/article/1555861276270? p = 1 & m = 0
3.假设检验的应用
https://www . cn blogs . com/wobujiaonaoxin/articles/11910326 . html
4.abtest-数据分析-假设检验基础
https://cloud.tencent.com/developer/article/1427845
5.什么是散列表
http://www.woshipm.com/pmd/805326.html
6.区块链节点间的数据验证:哈希值和非对称加密
http://www.woshipm.com/blockchain/1019704.html
7.重叠实验基础设施重叠实验基础设施
https://max.book118.com/html/2018/0131/151334020.shtm
8.AB实验在点滴数据驱动中的应用