并行性:同一时段并行多个试验
在AB测试中,不同版本之间的流量分配务必保证随机均匀。在一些试验中,有些用户希望某一版本的数据尽快增长,试验运行1-2天后感觉某一版本指标转化率达到增长预期,只提高了某一版本的流量,而保持其他版本的流量不变,这就打破了版本流量比例均衡的原则,这样做的后果就是分流不均,试验数据毫无参考价值。那么如何做好流量分配呢?本篇文章我们就来深入讨论AppAdhoc A/B Testing的科学分流。
AppAdhoc A/B Testing的科学流量分割具备两个特性:
基于分流算法,配置等比例的流量规则,将样本均匀地分配至不同试验版本当中,可以有效保证多试验版本场景下近乎一致的样本量(样本n足够大时,组间样本的比例趋近1:1)
通俗理解,相似特征要求试验样本具备总体的特征,即将相似特征的用户均匀的分配到试验组中,确保每个组别的用户特征的相似性,从而避免出现数据偏差,使得试验的结果更有代表性。
抽样效果示意图
在用户服务过程中,我们总结了若干影响分流效果的因素。
从现实层面来说,影响分流的因素是多种多样的,而且是无法穷举的,因为有些因素(变量)是可控的,有些是不可控的,因此我们将其分为主观因素与客观因素两方面分别讨论。
流量分配
通过AppAdhoc A/B Testing平台,可以在试验开启前进行流量分配,同时,也支持在试验运行中,根据业务需要,即时调整流量。
流量调整须均匀分配各个版本的流量比例,从而获得科学可信的试验结论。
- 测试人员 (上线前后的埋点验证)
- 业务人员 (保持版本一致性)
- 特殊人群 (不符合某些条件的用户群组,强制进组原始版本或试验版本)
该功能可以满足特定人群访问指定版本的需求,同时,也支持在试验运行期间,批量切换进组版本,并且不会产生干扰数据,杜绝了污染试验数据的可能性。
试验周期因素
假设试验对象是整体用户,且试验运行时间过短(<7天),即使流量分配比例是按照1:1的情况配置,由于未度过抽样波动期(红色虚线为界限),会导致样本特征不均匀,即试验样本与总体样本有显著差异。如果在红色虚线处已经出现了指标收敛,我们依然建议适当延长试验时长,至少覆盖一周的时间,从而获得充分可信的试验结论。
场景示意图
幸存者偏差:人们只关注了少部分成功(幸存者)的案例,然后形成了一种错误的认知(偏差),认为每个人的经历都应该是这样的。
此时进行AB测试,试验结论往往也只对该时段的样本表现进行描述,无法描述所有时段的样本表现,也就无法得出客观的试验结论。
流量波动示意图
科学地进行分流是AB测试能否成功的关键一环,小到影响试验结论,大到左右公司兴衰,需要我们严谨地对待AB测试的每一个步骤。对于用户而言,需要在专业的AB测试指导下,通过往复的试验摸索,逐步完善自己的AB测试方法论。
立即开启AB测试