abtest 系统设计汇总

简介

第一个是数据中心的天级部署。
第二个数据，我们每天线上变更是两万次。
第三个数据是我们每天新增大约1500个A/B测试，说明我们有很多想法的时候可以快速验证，就会产生进化。我再举个例子，假设有两家公司，他们的方向一致，战略水平也差不多，如果一家公司每个星期能做10个A/B测试，验证10个想法，另一家公司每个星期只验证1个想法，可以想象经过半年之后，两家公司会拉开多大的差距。所以说当方向、战略差不多的情况下，敏捷就是决定竞争力的关键因素。

选择方案就好比找女朋友，经过初步分析和了解，比如说选定了样貌和学历两个条件，这时候两个对象都差不多，你选择了好追的（简单的）的对象去追求（实现方案）。事后才发现，追上的脾气大（踩坑了），看着差不多的其实差很多，这时候想回头就很尴尬了。这就是为什么看了这么多道理（方案设计），依然过不好这一生（系统实现有瑕疵）

本文主要是阅读 ABTest 系统设计的各个方案，加上自身实践，列出设计abtest 系统应考虑哪些点。

A/B 测试从 0 到 1 极客时间教程，涉及一些理论知识。

火山引擎 A/B 测试私有化实践

Google、Bing、抖音、淘宝等巨头如何做AB实验的？未读。

AB 实验为何值得信赖？未读

字节如何利用 A/B 实验提升产品用户留存？未读。

如何从实验中获得更多？——AB实验的异质性分析实践未读。

abtest 系统的边界

单纯的用户分流，根据uid等，单纯的对比AB方案
A/B 与灰度发布，你没看错，跟发布搞在一起。蓝绿部署、A/B测试以及灰度发布
任意维度的A/B，比如地域、性别、新老用户等

先来一个完整案例

沪江ABTest测试平台实践主要内容如下（内容很零碎，用来体现设计一个abtest 要考虑哪些问题）：

实验的两个要素：

流量。其实就是selector，如何分流
参数。其实就是bucket/action ，分流后的动作

流量模型的几个基本概念

域，流量的一个划分，比如日语用户
层，不同实验层间进行独立的流量划分和独立的实验，互不影响。
实验，上文讲过了

不同终端采用不同的用户标识id来hash分流

web端采用 cookieId
app端采用设备id
小程序端采用 openID 作为唯一标识符

实现正交性的两种方式：

具体进行流量划分时，为了实现实验层之间流量划分的正交性，会将流量标识信息和实验层标识一起进行实验流量 bucket 划分，实验层标识 salt 称为离散因子。bucket id = hash(uid,salt) % 100
学习 ABTest 与灰度发布对于不同的测试，最好使用独立的各不相同的 hash 函数，以保持正交性

tips

为了便于内测等，我们也实现了白名单功能，运营或者产品可以通过后台配置某用户命中某个特定的实验参数。

在实际线上运行ab测试的时候，我们经常需要针对某个实验参数做流量的扩量或者缩量。

实验变量	A	B	C
切换前bucket区间	0-79	80-89	90-99
将C扩容10个百分比	0-74	75-79	80-99

切换之后实际上A，B和C覆盖的用户人群都发生了变化。其实更佳的扩缩量方案是：B流量不变，C从A切换 10% 流量过去，这样可以尽量减少对覆盖用户人群参与实验的变化。

实验平台架构

实验管理，允许用户对实验进行配置和管理
流量管理，对实验参数分配流量配置
数据收集，客户端上报数据，最终落到BI部门Hadoop集群
数据分析，对上报的数据进行分析以及计算置信区间等，最后通过报表的形式进行展示。

从中可以猜到

沪江的实验管理和流量管理是分开的。实验更多是参数的集合，作为流量划分、报表生成的单位存在
沪江的abtest 并没有向客户端打tag，整个过程大致都是服务端完成的。

理论层面

蓝绿部署、A/B 测试以及灰度发布

A/B 测试目的在于通过科学的实验设计、采样样本代表性、流量分割与小流量测试等方式来获得具有代表性的实验结论，并确信该结论在推广到全部流量可信；
蓝绿部署的目的是安全稳定地发布新版本应用，并在必要时回滚。
- 精确的流量分发控制
- 监控系统的支撑
- 灵活的发布系统

AB测试和灰度发布平台架构设计和实践

twitter 的文章偏理论层面：

Twitter的A/B测试实践（一）：为什么要测试以及测试的意义
1. 大部分实验只能带来个位数百分比的改进，或者甚至是分数百分比。大多数时候，不理想的 A/B测试结果让我们能够及早发现，看上去不错的想法其实可能不怎么样。因此我们更愿意尽可能快的获得坏消息
2. 有些特性不适合A/B，比如A版本的用户想给B版本的用户留言，而B版本的用户没有这个功能。
Twitter的A/B测试实践（二）：技术概述
1. 应该跟踪哪些指标？可以在实验配置过程中创建或者从其它现有指标库中选取。
Twitter的A/B测试实践（三）：检测和避免 A/B Test中 bucket不平衡问题
Twitter的A/B测试实践（四）：A/B Test中使用多个控制的启示

生效机制

技术干货-AB测试和灰度发布探索及实践要点如下

立即生效
热启生效，热启生效就是退出界面，重新进入生效
冷启生效，冷启生效就是杀死进程之后，重新进入生效

分流

分流在客户端做：客户端掌握完整 ab数据，自行根据设备信息选择 AB 方案的action，比如访问不同的url
分流在服务端做：同一个url，服务端根据AB 配置返回不同的数据。比如沪江方案

分流要确保同一个用户不同时间返回方案的稳定性。

abtest 关闭之后

abtest 可以轻易关闭么？abtest 的最终目的还是要产生一个结论，这个结论如何广而告之所有的客户端（通常不现实）？这是否意味着 abtest 在一个客户端版本周期内不能关闭，最多就是将某个方案的用户量设置为100%

工程层面

新浪新闻客户端的实践 AB测试和灰度发布探索及实践

适用场景

面向客户端，一般涉及到ui 变化，通常涉及到客户端发版
面向服务端，不涉及 ui 变化，数据接口返回值的schema 不变，只是更改了数据算法或来源。比如一个专辑列表，返回的都是专辑数据，但有可能来自用户的订阅、推荐、收听历史等。

阿里巴巴的文章还是面向浏览器端 A/B测试：基本概念 A/B测试：实现方法

整体设计

基于配置中心做（一切皆配置）， ab 的不同反应在配置中心的不同配置值上，客户端无感知
客户端有专门的 abtest sdk
- 服务端只是下发 ab 数据，由客户端自行根据ab 数据选择动作
- 服务端直接将策略（选A还是选B）告诉客户端。也因此客户端请求时需要携带设备本身的大量信息。

代码实现

如何表示一个abtest
- 页面上
- 数据存储上
如何表示一个abtest系统
- 代码组织上
- 系统运行上，哪些独立的运行进程，abtest 有哪些参与者，他们都会进行什么操作
- 系统结构上，访问层、存储层等
一个abtest 如何生效
1. 服务端，对于接口interface IHelloService{void hello();}，实现类除实现hello方法外，提供helloA和helloB实现。运行时，拦截hello方法的执行，根据abtest 策略选择helloA/helloB 执行
2. 客户端
  1. 基于配置中心做，同一个配置值，A/B用户对应的值不同。
  2. 客户端保有两份儿代码，abtest client sdk 根据本机的设备信息结合下发的abtest 数据选择执行。阿里巴巴的方案 A/B测试：实现方法，据猜测新浪新闻客户端也应该是这个方案。

数据统计

靠后台关联。ab 系统后台记录打点日志，内容类似于 who when 拿到了方案A/B 的响应，再与相关数据关联即可。
靠给设备打tag。比如我根据某个打点请求来评估效果，那么假设该打点请求总量是100个，打A标签的40个，打B标签的有60个，则说明B方案好。 tag（一些地方也叫bucketId）的来源有两种方式
- 客户端本地持有用户画像数据，服务端返回AB 规则，客户端根据ab规则 + 画像数据产生决策（用A还是用B），然后产生tag
- 由服务端决策该客户端使用A 还是B，除返回 A or B 策略数据外，一并返回 tag
客户端发送行为日志

用AB不靠AB

2018.10.22 补充

有一次跟产品闲聊，觉得他的思路挺好的。我以前想着，做了一个abtest，然后有一个报表直接说这个abtest的情况。后来他说，其实应该是先有一个数据报表的基础设施，然后再有abtest，abtest 中的A B 只是给原有数据分析里加了一个维度。比如你原来就有一个请求的点击率报表，有了AB 之后，多了一个分析维度。而不是你为了ab，硬要做一个针对这个ab的报表。

abtest 对整个公司的基础设施依赖都很大，如果连数据可视化都做不到，效果对比就更无从谈起，ab系统做出来也难以让人信服。

关于字节跳动这7年，张一鸣讲了5个故事

同理心是地基，想象力是天空，中间是逻辑和工具。我感觉这句话解决的是产品的发展方向如何判定的问题？

以数据为中心，哪个数据好用哪个方案
有一套想法，打算创造一个什么价值，然后以用户最容易接受的方式落地

我印象最深的一句话：抖音也是如此，想象全屏的视频让手机变成一扇窗户，你透过这个窗户看到一个丰富的世界，抖音是这个五彩斑斓世界的投影，感觉非常奇妙。如果没有想象力，你可能只会做出一款对口型的热门应用或者搞笑视频软件，抖音也不可能从一款炫酷的音乐舞蹈小众软件，演化成包容美丽风光、戏曲艺术、感人故事、生活消费的大众平台。

做不做靠想象力、同理心，不是靠ab。而怎么做可以用ab来解决细节问题。

AB测试只是一个工具而已，是测不出用户需求的，同理心才是重要的基础。如果没有同理心，做出的产品肯定没有灵魂，不能满足用户需求。但是光有同理心还不够，这样只能做出有用的产品。想要做出彩的产品，想象力非常重要。

很多时候，ab只是帮助我们理解用户，而不是帮助我们决策

如何扩大客户端abtest 的应用范围

客户端abtest 通常涉及到ui的变化，对于AB用户，常常有以下需求

一个按钮/tab 的文案、颜色不同，可以将这些信息作为一个配置，由配置中心统一负责
界面的构成完全不同
跳转行为不同，一般由跳转系统负责
弹屏内容不同，一般由统一弹屏系统负责

可以看到，abtest的应用不只是 abtest 本身，是与其它系统一起相互作用的。而类似配置中心、弹屏系统等客户端实现方案一般为

一般来说，既然业务系统数据会以一定数据格式存在客户端，此时，我们可以更改业务数据的访问逻辑，先去abtest 中查询特定数据是否有abtest （持有了一份儿相同格式的业务数据），有则直接返回abtest 的数据，无则访问原业务数据。

通过这种方式，我们可以将abtest 与客户端的各个业务系统关联起来，实现不同的人有不同的ui、弹不同的屏、甚至运行不同的代码。

小结

从当下看，设计abtest 系统，其实最关键的就是定义 abtest 系统的边界：是单纯的流量分割还是夹带灰度下发，是单纯面向客户端还是面向服务端，是全新开发还是依赖配置中心等组件来做。一个清晰地边界非常重要。

精炼的说

abtest 包括什么？分流 + bucket/action
分流有哪些关键点？在客户端做还是服务端做
bucket 有哪些关键点，在客户端做还是服务端做

技术

生活

架构

产品

标签

Container 23

Concurrency 14

Life 41

Tool 8

Algorithm 8

JVM 10

Go 21

Kubernetes 65

Other 5

Network 15

Python 8

Java 20

Spring 17

Netty 10

Storage 25

Distribute 9

MQ 8

WEB 7

Linux 11

Scala 1

Code 9

MachineLearning 105

Practice 15

RPC 6

Compute 11

Architecture 20

DDD 6

Reactive 5

Basic 13

Product 3

Monitor 9

CPP 2

Mesh 12

简介