AB测试中,如何做好科学分流?

21 6月
前言
AB测试是一种通过一些客观的指标,让流量随机进入不同的方案,从而衡量哪个方案更佳的评估方式。通过AB测试,可以科学优化方案并加以应用。因此,A/B测试的应用方式决定了它拥有三大特性:科学性、先验性和并行性。

科学性:科学的流量分配,即科学分流先验性:小流量预估大流量数据表现

并行性:同一时段并行多个试验

一、什么是科学分流?

在AB测试中,不同版本之间的流量分配务必保证随机均匀。在一些试验中,有些用户希望某一版本的数据尽快增长,试验运行1-2天后感觉某一版本指标转化率达到增长预期,只提高了某一版本的流量,而保持其他版本的流量不变,这就打破了版本流量比例均衡的原则,这样做的后果就是分流不均,试验数据毫无参考价值。那么如何做好流量分配呢?本篇文章我们就来深入讨论AppAdhoc A/B Testing的科学分流。

AppAdhoc A/B Testing的科学流量分割具备两个特性:

1、均匀分流

基于分流算法,配置等比例的流量规则,将样本均匀地分配至不同试验版本当中,可以有效保证多试验版本场景下近乎一致的样本量(样本n足够大时,组间样本的比例趋近1:1)

2、相似特征

通俗理解,相似特征要求试验样本具备总体的特征,即将相似特征的用户均匀的分配到试验组中,确保每个组别的用户特征的相似性,从而避免出现数据偏差,使得试验的结果更有代表性。

抽样效果示意图

 

二、影响分流的因素有哪些?

在用户服务过程中,我们总结了若干影响分流效果的因素。

从现实层面来说,影响分流的因素是多种多样的,而且是无法穷举的,因为有些因素(变量)是可控的,有些是不可控的,因此我们将其分为主观因素与客观因素两方面分别讨论。

1、影响分流的主观因素

流量分配

 

通过AppAdhoc A/B Testing平台,可以在试验开启前进行流量分配,同时,也支持在试验运行中,根据业务需要,即时调整流量。

 

流量调整须均匀分配各个版本的流量比例,从而获得科学可信的试验结论。

流量过滤规则受众定向模块支持用户在试验开启前,根据业务需要,设置受众规则。符合规则的进行分流,否则不分流。

特定版本标签在AB测试上线之前和上线之后,需要将某些特定人群分流到特定版本,如:

  • 测试人员 (上线前后的埋点验证)
  • 业务人员 (保持版本一致性)
  • 特殊人群 (不符合某些条件的用户群组,强制进组原始版本或试验版本)

该功能可以满足特定人群访问指定版本的需求,同时,也支持在试验运行期间,批量切换进组版本,并且不会产生干扰数据,杜绝了污染试验数据的可能性。

2、影响分流的客观因素

试验周期因素

假设试验对象是整体用户,且试验运行时间过短(<7天),即使流量分配比例是按照1:1的情况配置,由于未度过抽样波动期(红色虚线为界限),会导致样本特征不均匀,即试验样本与总体样本有显著差异。如果在红色虚线处已经出现了指标收敛,我们依然建议适当延长试验时长,至少覆盖一周的时间,从而获得充分可信的试验结论。

同一页面并行分层试验多个试验分层并行时,需要避免指向同一个观测指标,例如下面的案例,两个试验最终都对“免费试用”的转化率有较大的影响,在做归因分析时,无法区分到底是哪一个试验决定了转化率的变化。

场景示意图

                          错误用法示例

 

运营活动引起的流量波动对于有特殊运行时长限制的情况下(例如1~2周内需要出结论),我们强烈建议尽量避开重大活动。因为重大活动的影响下(优惠幅度更大,购买行为激增),该时段的样本特征往往与平时的样本特征存在较大的差异,会引起“幸存者偏差效应”

 

幸存者偏差:人们只关注了少部分成功(幸存者)的案例,然后形成了一种错误的认知(偏差),认为每个人的经历都应该是这样的。

 

此时进行AB测试,试验结论往往也只对该时段的样本表现进行描述,无法描述所有时段的样本表现,也就无法得出客观的试验结论。

流量波动示意图

 

总结

科学地进行分流是AB测试能否成功的关键一环,小到影响试验结论,大到左右公司兴衰,需要我们严谨地对待AB测试的每一个步骤。对于用户而言,需要在专业的AB测试指导下,通过往复的试验摸索,逐步完善自己的AB测试方法论。

立即开启AB测试