AB测试中，如何做好科学分流？

前言

AB测试是一种通过一些客观的指标，让流量随机进入不同的方案，从而衡量哪个方案更佳的评估方式。通过AB测试，可以科学优化方案并加以应用。因此，A/B测试的应用方式决定了它拥有三大特性：科学性、先验性和并行性。

科学性：科学的流量分配，即科学分流先验性：小流量预估大流量数据表现

并行性：同一时段并行多个试验

一、什么是科学分流？

在AB测试中，不同版本之间的流量分配务必保证随机均匀。在一些试验中，有些用户希望某一版本的数据尽快增长，试验运行1-2天后感觉某一版本指标转化率达到增长预期，只提高了某一版本的流量，而保持其他版本的流量不变，这就打破了版本流量比例均衡的原则，这样做的后果就是分流不均，试验数据毫无参考价值。那么如何做好流量分配呢？本篇文章我们就来深入讨论AppAdhoc A/B Testing的科学分流。

AppAdhoc A/B Testing的科学流量分割具备两个特性：

1、均匀分流

基于分流算法，配置等比例的流量规则，将样本均匀地分配至不同试验版本当中，可以有效保证多试验版本场景下近乎一致的样本量（样本n足够大时，组间样本的比例趋近1:1）

2、相似特征

通俗理解，相似特征要求试验样本具备总体的特征，即将相似特征的用户均匀的分配到试验组中，确保每个组别的用户特征的相似性，从而避免出现数据偏差，使得试验的结果更有代表性。

抽样效果示意图

二、影响分流的因素有哪些？

在用户服务过程中，我们总结了若干影响分流效果的因素。

从现实层面来说，影响分流的因素是多种多样的，而且是无法穷举的，因为有些因素（变量）是可控的，有些是不可控的，因此我们将其分为主观因素与客观因素两方面分别讨论。

1、影响分流的主观因素

流量分配

通过AppAdhoc A/B Testing平台，可以在试验开启前进行流量分配，同时，也支持在试验运行中，根据业务需要，即时调整流量。

流量调整须均匀分配各个版本的流量比例，从而获得科学可信的试验结论。

流量过滤规则受众定向模块支持用户在试验开启前，根据业务需要，设置受众规则。符合规则的进行分流，否则不分流。

特定版本标签在AB测试上线之前和上线之后，需要将某些特定人群分流到特定版本，如：

测试人员（上线前后的埋点验证）
业务人员（保持版本一致性）
特殊人群（不符合某些条件的用户群组，强制进组原始版本或试验版本）

该功能可以满足特定人群访问指定版本的需求，同时，也支持在试验运行期间，批量切换进组版本，并且不会产生干扰数据，杜绝了污染试验数据的可能性。

2、影响分流的客观因素

试验周期因素

假设试验对象是整体用户，且试验运行时间过短（<7天），即使流量分配比例是按照1:1的情况配置，由于未度过抽样波动期（红色虚线为界限），会导致样本特征不均匀，即试验样本与总体样本有显著差异。如果在红色虚线处已经出现了指标收敛，我们依然建议适当延长试验时长，至少覆盖一周的时间，从而获得充分可信的试验结论。

同一页面并行分层试验多个试验分层并行时，需要避免指向同一个观测指标，例如下面的案例，两个试验最终都对“免费试用”的转化率有较大的影响，在做归因分析时，无法区分到底是哪一个试验决定了转化率的变化。

场景示意图

错误用法示例

运营活动引起的流量波动对于有特殊运行时长限制的情况下（例如1~2周内需要出结论），我们强烈建议尽量避开重大活动。因为重大活动的影响下（优惠幅度更大，购买行为激增），该时段的样本特征往往与平时的样本特征存在较大的差异，会引起“幸存者偏差效应”

幸存者偏差：人们只关注了少部分成功（幸存者）的案例，然后形成了一种错误的认知（偏差），认为每个人的经历都应该是这样的。

此时进行AB测试，试验结论往往也只对该时段的样本表现进行描述，无法描述所有时段的样本表现，也就无法得出客观的试验结论。

流量波动示意图

总结

科学地进行分流是AB测试能否成功的关键一环，小到影响试验结论，大到左右公司兴衰，需要我们严谨地对待AB测试的每一个步骤。对于用户而言，需要在专业的AB测试指导下，通过往复的试验摸索，逐步完善自己的AB测试方法论。

立即开启AB测试