腾讯优测解析AB测试构建测试平台的注意事项
腾讯优测解析AB测试构建测试平台的注意事项
构建AB测试平台需要关注的重要问题
在设计AB测试平台中,我们需要关注如下几点,才能让AB测试能力得到正确的运用,更好的发挥应有的价值。
1 .灵活的分组/分桶
AB测试一般需要根据各种维度对用户来分组,因此需要设计灵活(方便快速迭代)、有效(效果评估置信度高)的分组方案。
具体可能会根据随机、用户版本、用户地域、时间、渠道、年龄、性别、收入、行为等各种维度来对用户分组。AB测试平台要具备多维度分组的能力。
2 .AB测试一定要具备统计学意义上“显著”的置信度
AB测试是有成本的,AB测试的目的是得出正确的结论来优化产品体验、提升收益转化,所以AB测试指标的提升一定要是统计学上“显著”的,是真实有效的。
关于置信度有很多统计学方法来验证,这里我不细讲,有兴趣的读者可以自行搜索相关材料。
3 .用户体验一致性
根据上节讲的AB测试的实现方案,有些方案(如方案3)用户在一定周期内体验是一致的(同一天多次重复进入该页面或者使用该功能看到的结果是一样的),而有的方案(如方案2类)用户每次进入页面或者使用该功能看到的结果可能是不一样的。显然前一种用户体验是一致的,后一种不一致。
个人建议涉及到UI展示及交互的、用户会多次进入/使用的功能点,利用体验一致的AB测试方案比较好。但是像广告投放这类业务,是在不同场景不一样的,没必要采用用户体验一致的做法。
4 .测试周期要足够长
要让AB测试得出可信服的结论,AB测试需要经历一定的周期,才能得出比较有价值的结论。这里举一些例子来说明。
像UI及用户交互的优化,新的UI及交互方式可能开始用户有新鲜感,但是等用户新鲜感过去后可能就对该功能没有那么热衷了(这就像你刚找了个女朋友,恨不得每时每刻待在一起,但是过了2年3年,甚至几个月后,你可能就不是这种想法了)。如果只测试较短时间,发现新功能使用更频繁,这时如果我们就得出新的优化是比老的好,可能就被数据欺骗了。这时做法是让AB测试运营一个足够长的时间段,让结果稳定下来,再来比较核心指标。具体选用多长的时间需要根据行业及经验来定,并且在在计算核心指标时,可以剔除掉初期的数据,避免初期的新鲜感影响终评估结果。
另外,像有些特殊行业的产品,用户在不同时间行为是不一样的,比如视频行业(特别是智能电视上的视频应用,由于是多人使用一个产品,每个人的时间是不一样的,父母可能平时要上班,小孩只有在晚上有时间看电视,老人整天都有机会看电视),用户在周末跟工作日的行为是不一样的。这是AB测试周期不能是一天的某段时间,也不能是某几天,是一周的整数倍,得出的结论才比较可靠。
5 .损失小性原则
我们做AB测试的目的是优化用户体验,但是有可能我们认为有效的优化在真实上线时反而是不好的,为了避免这种情况发生对用户体验和收益的负面影响。我们在做AB测试时尽量用小的流量来测试新的算法或者优化点,当数据证明优化点是有效的,才逐步推广到所有用户。实验过程中如果数据不好,多只影响到测试的这批少量用户,不至于产生大的负面影响。
6 .处理好AB测试与缓存的关系
互联网公司通过大量采用缓存技术来加速查询,同时提升整个系统的高性能、高可用能力。当为某个功能模块做AB测试时,特别要考虑缓存情况,这时可能会存在问题。
这里举个例子说明,如果某个用户开始是老算法策略,如果在做AB测试时,给用户分配到了新算法策略,如果有缓存的话,那么用户会从缓存获取到老算法策略,这时跟实际上用户分配到的新算法策略不一致。
解决方案是当用户的缓存跟用户的实际分配的策略不一致时,清空缓存,让请求回源。当然,具体实现方式可以有很多种且跟具体业务和AB测试实现方案有关,这里不详细说明。
腾讯优测:https://utest.21ku***/home
构建AB测试平台需要关注的重要问题
在设计AB测试平台中,我们需要关注如下几点,才能让AB测试能力得到正确的运用,更好的发挥应有的价值。
1 .灵活的分组/分桶
AB测试一般需要根据各种维度对用户来分组,因此需要设计灵活(方便快速迭代)、有效(效果评估置信度高)的分组方案。
具体可能会根据随机、用户版本、用户地域、时间、渠道、年龄、性别、收入、行为等各种维度来对用户分组。AB测试平台要具备多维度分组的能力。
2 .AB测试一定要具备统计学意义上“显著”的置信度
AB测试是有成本的,AB测试的目的是得出正确的结论来优化产品体验、提升收益转化,所以AB测试指标的提升一定要是统计学上“显著”的,是真实有效的。
关于置信度有很多统计学方法来验证,这里我不细讲,有兴趣的读者可以自行搜索相关材料。
3 .用户体验一致性
根据上节讲的AB测试的实现方案,有些方案(如方案3)用户在一定周期内体验是一致的(同一天多次重复进入该页面或者使用该功能看到的结果是一样的),而有的方案(如方案2类)用户每次进入页面或者使用该功能看到的结果可能是不一样的。显然前一种用户体验是一致的,后一种不一致。
个人建议涉及到UI展示及交互的、用户会多次进入/使用的功能点,利用体验一致的AB测试方案比较好。但是像广告投放这类业务,是在不同场景不一样的,没必要采用用户体验一致的做法。
4 .测试周期要足够长
要让AB测试得出可信服的结论,AB测试需要经历一定的周期,才能得出比较有价值的结论。这里举一些例子来说明。
像UI及用户交互的优化,新的UI及交互方式可能开始用户有新鲜感,但是等用户新鲜感过去后可能就对该功能没有那么热衷了(这就像你刚找了个女朋友,恨不得每时每刻待在一起,但是过了2年3年,甚至几个月后,你可能就不是这种想法了)。如果只测试较短时间,发现新功能使用更频繁,这时如果我们就得出新的优化是比老的好,可能就被数据欺骗了。这时做法是让AB测试运营一个足够长的时间段,让结果稳定下来,再来比较核心指标。具体选用多长的时间需要根据行业及经验来定,并且在在计算核心指标时,可以剔除掉初期的数据,避免初期的新鲜感影响终评估结果。
另外,像有些特殊行业的产品,用户在不同时间行为是不一样的,比如视频行业(特别是智能电视上的视频应用,由于是多人使用一个产品,每个人的时间是不一样的,父母可能平时要上班,小孩只有在晚上有时间看电视,老人整天都有机会看电视),用户在周末跟工作日的行为是不一样的。这是AB测试周期不能是一天的某段时间,也不能是某几天,是一周的整数倍,得出的结论才比较可靠。
5 .损失小性原则
我们做AB测试的目的是优化用户体验,但是有可能我们认为有效的优化在真实上线时反而是不好的,为了避免这种情况发生对用户体验和收益的负面影响。我们在做AB测试时尽量用小的流量来测试新的算法或者优化点,当数据证明优化点是有效的,才逐步推广到所有用户。实验过程中如果数据不好,多只影响到测试的这批少量用户,不至于产生大的负面影响。
6 .处理好AB测试与缓存的关系
互联网公司通过大量采用缓存技术来加速查询,同时提升整个系统的高性能、高可用能力。当为某个功能模块做AB测试时,特别要考虑缓存情况,这时可能会存在问题。
这里举个例子说明,如果某个用户开始是老算法策略,如果在做AB测试时,给用户分配到了新算法策略,如果有缓存的话,那么用户会从缓存获取到老算法策略,这时跟实际上用户分配到的新算法策略不一致。
解决方案是当用户的缓存跟用户的实际分配的策略不一致时,清空缓存,让请求回源。当然,具体实现方式可以有很多种且跟具体业务和AB测试实现方案有关,这里不详细说明。
腾讯优测:https://utest.21ku***/home