1. 主页 > 网络营销 >

复盘:从 0 到 1 设计 A/B测试系统

写本文的主要目的在于希望能将理论和实际产品设计结合得更加紧密,帮助大家抓住设计的重点,对于比较深入的统计学原理不会过多涉及,仅用于辅助理解系统,如有深入学习兴趣的读者可自行研究。

复盘:从 0 到 1 设计 A/B测试系统

不知不觉拖更了好久,后台被催更了好几次,前阵子比较忙,在给某四大银做一个私有化的系统,再次实践后又对相关系统有了新的认知,趁着热乎这期就先来讲讲 A/B测试系统吧。

虽然目前已顺利上线投产,但回想当初实在找了很多资料,包括书籍论文、相关产品使用资料,以及产品和开发者社区。资料虽然不少,但还是存在2 大问题,要么过于理论化以至于难以实操落地,要么就是过于靠近产品功能的介绍以至于对于产品背后的逻辑理解得不够深刻,整体都不够体系化(毕竟要深入和体系化讲解篇幅是很长的,这事就交给我吧)。

因此笔者希望本文能对此有个补充,写本文的主要目的在于希望能将理论和实际产品设计结合得更加紧密,帮助大家抓住设计的重点,对于比较深入的统计学原理不会过多涉及,仅用于辅助理解系统,如有深入学习兴趣的读者可自行研究。

当然,因为笔者现在做的是saas产品,所以在产品形态上是一个 saas系统模块,读完如觉得笔者理解不到位或偏颇之处,欢迎指教。

01 全文内容概要

说实在的,写这么一篇文肯定篇幅会比较长,所以对全文内容做个基本介绍还是比较有必要的。

对于互联网人而言,A/B 测试应该耳熟能详,即使没用过绝大部分也听过,但正常来说如果没接触过,很多人的理解可能仍停留在初中生物时学到的“对比实验”。因此先介绍系统背后的基础原理还是十分必要的,也能帮助大家更好地理解系统设计背后的目的所在,全文展开的节奏如下:

介绍 A/B 测试背后的统计学原理和试验流程,抛出系统的定位,帮助大家理解系统设计的目标;

结合对 3 大类涉及 A/B测试功能产品的调研,对背后不变的产品逻辑和系统架构进行抽象总结,帮助大家明确各个关键模块及作用;

在设计系统各个关键模块时,需要重点考虑的地方,属于落地实操部分,帮助大家看完后能知道应该具体该怎么开始设计。

02 A/B测试背后的统计学原理 1. 基础统计学概念

某度对于统计学的定义是:

统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。

联系到A/B测试,其实它就是通过先对部分用户设置不同的方案,并进一步对不同方案的数据进行分析,从而去推测哪个方案在全量发布后效果是更优的,在这个过程中有必要介绍下几个基础的统计学概念。下面以一个 case 为例来说明,假设现在希望看下改变按钮颜色能否提高落地页中的按钮点击率,在这个试验中涉及:

总体:落地页的全部访客,不仅包括试验时访问的那些,也包括后续访问网页的,绿色按钮、红色按钮分别对应 2 个总体;

样本:在访问时随机分配了不同颜色按钮的访客,对应颜色的按钮分别对应着一个样本,这些样本是总体经过抽样产生的,通常在统计中只有样本量足够大,才能更好地确保实验结论的有效性,所以 A/B测试系统会提供样本量计算器,告诉用户试验应该达多少样本量或运行多行时间才能得出相对有效的结论;

抽样:有多种抽样方法,包括简单随机抽样(有放回抽样、无放回抽样)、分群抽样、分层抽样,核心是要在随机原则下从总体取出样本,并且具有代表性(样本能够代表总体);

总体参数:描述总体特征的参数,在示例中是按钮点击率

统计量:样本统计计算后得到的统计数值,在示例中是样本的点击率;

参数评估:指用样本统计量来估计总体参数,这里我们通过对比试验的2 个样本间的数据,从而评估方案调整后针对全部用户的效果。常有包括点估计和区间估计 2 种方式,一般我们使用的是后者。这也很好理解,当我们统计出样本的点击率是 20%,如果这时候说确定采用点击率更高的按钮颜色后,点击率大概是20%,这便是点估计,显然它的误差是非常大的,所以我们在估计是会给出总体参数的一个概率范围,即有多大的可能落在某个范围,比如说有 90%的可能提升 10%~20%,显然这样的估计就会更加准确科学,通常我们称之为“置信区间”,这个区间的计算有一定的方法,大部分 A/B测试系统都会给用户提供这个参数以供参考。

2. 假设检验试验

结合上文提到的落地页按钮点击率试验,假如现在通过一周的试验,我们发现绿色按钮比红色按钮的点击率更高,但事实真的是这样吗?

本文由摸索网(http://www.lnmosuo.com)发布,不代表摸索网立场,转载联系作者并注明出处:

联系我们

工作日:9:30-18:30,节假日休息