从抖音起名说起，字节跳动解密数据驱动的正确打开方式-技术圈

大数据文摘出品

根据抖音官方于1月5日发布的2020年度数据报告，截至2020年8月，抖音日活跃用户突破6亿，截至2020年12月，抖音日均视频搜索次数突破4亿。

这其中，肯定有你我的功劳。

但是，身为抖音重度用户，文摘菌要考考大家，你知道“抖音”这个名字是怎么来的吗？

4月20日，字节跳动旗下火山引擎的技术开放日在北京方恒时尚中心举办，字节跳动技术负责人杨震原就数据驱动以及A/B测试发表了演讲，期间他也透露了“抖音”的名字由来。

“抖音”这一名字，综合了A/B测试和人为判断的结果，“虽然‘抖音’这个名字在测试结果中排名第二。但大家觉得，这个名字更符合认知，更能体现它的形态，所以还是选了它”。

也就是说，“抖音”这一名字，其实综合了数据驱动和人为思考的共同决策，也和字节跳动的A/B测试紧密地绑定在一起。

数据驱动很重要，但也不是有数据就能驱动

“数据驱动”这个词，对于身处于大数据时代的你我已是耳熟能详。这种将数据作为生产资料正向反馈到经营活动中的行为，早已成为了科学决策的代名词。

但是，由于过分追求“数据决策”，也有不少企业会陷入“唯数据论”的误区，认为只要有数据支持，就能做出比人为思考更科学的策略。

对于如何更合理地实现数据驱动，在2020年大数据文摘联合清华大数据研究院联合发布的《顶级数据团队建设全景报告》中就明确说明，“要依赖数据做决策，但不能只依赖数据做决策”。

在评估方法中有“经验判断”这一分类，即主要靠人的主观判断。在公司决策上，主要依靠于领导层的决策，这一方法目前在大多数公司中得以采用，不过究其问题，不仅在执行上困难重重，也很难纠正有偏性。因此，在进行重大问题决策时，并不是有数据就可以的，还需要有效的验证数据的方式。

如何更好地利用数据，以实现真正的数据驱动，A/B测试就是不二选择。但要真正用好A/B测试，还需要理解，什么是真正意义上的A/B测试，什么是非A/B测试。

对于非A/B测试，可以用一个例子简单说明。如下图所示，这张照片用清晰的数据格式向我们证明了，巧克力吃得越多的国家，诺贝尔奖得主也就越多。也就是说，如果我们想多拿诺贝尔奖，就必须多吃巧克力了？

这个结论显然是不靠谱的，两个事件存在相关性，并不能直接推导出存在因果性。而如果在决策中出现这种情况，就会面临不小的风险。

简单公正，科学创新：A/B测试辅助数字化管理

说回A/B测试，这一方法并非互联网公司原创。早在18世纪坏血病肆虐时，英国一位医生就利用了A/B测试，他把患有坏血病的水手随机分成六组，用不同方法进行治疗，从而确定了柠檬和橘子能有效治疗坏血病。这也是人类有记载最早的A/B测试。

如今，这一方法已经被互联网公司纳入数字化管理中来。企业在做产品/功能测试时，一般都会用到A/B测试，即把用户分为两组，对照组和实验组。对照组采用已有的产品或功能，实验组采用新功能，要做的是找到他们的不同反应，并以此确定哪个版本更好。

如此看来，A/B测试似乎效率很低，既要分组，还要时刻关注影响因子的存在。

但是试想，当真正清楚一个事件以及它的影响因素后，我们就可以顺着台阶步步为营，反之这种进步就是间断的。而A/B测试就是稳中求胜的关键一环。

在硅谷，互联网公司早已将A/B测试纳入企业数字化管理中来了，在LinkedIn、谷歌这类以数据为主导的领先互联网公司中早已形成了共识：A/B测试简单公正，既跳过了争论，也在一定程度上提倡数字化引导的科学创新。

LinkedIn全球数据科学团队负责人许亚曾在采访中对大数据文摘表示，在用户看得到的与看不到的地方，LinkedIn都坚持着A/B测试。

以一款好的互联网产品为例，从搜索栏、搜索引擎算法、底部导航，到页面文字大小，这些都是可以经过A/B测试的。除了这些用户能看到的地方，在后端用户看不到的地方，很多优秀的互联网公司也会贯彻A/B测试思维。

比如打开APP要加载内容，需要从后端系统里获取数据，每次获取20条数据还是100条数据，这个决策就涉及到平衡与取舍，获取数据越多，页面加载时间越长；获取数据越少，用户浏览的时候就需要频繁刷新。所以到底一次获取多少数据，也可以提前用A/B测试做决策。

这些看似微细的细节，实际上隐藏着了一款产品成功与否的密码。

字节跳动的A/B测试实践：要数据驱动，但不能唯数据论

那么，在字节跳动内部，A/B测试是如何实践的呢？

早在2012年，字节跳动成立初期，张一鸣就已经开始在做A/B测试了。现在，内部来说，字节跳动每天大概新增1500个实验，服务400多项业务，累计已经做了70万次实验。

或许也是基于此，外界有观点把字节跳动称为“A/B测试公司”，对于此，张一鸣曾在公司7周年庆典上表示，“我发过一个微头条：同理心是地基，想象力是天空，中间是逻辑和工具。AB测试只是一个工具而已，是测不出用户需求的，同理心才是重要的基础。如果没有同理心，做出的产品肯定没有灵魂，不能满足用户需求。但是光有同理心还不够，这样只能做出有用的产品。想要做出彩的产品，想象力非常重要”。

不难看出，字节跳动所秉承的，正是“要依赖数据做决策，但不能只依赖数据做决策”的理念。

对于不能“唯数据论”这一观点，杨震原直接指出，不能盲目迷信A/B测试，A/B测试并非万能，在具体实践上，A/B测试还存在着问题和操作难度。

比如在进行A/B测试之前，首先需要对实验对象进行分组，再由操作者分别对两组进行不同的操作，对比结果从而得出结论。

这听上去似乎很容易实现，但首先如何确定两个分组的独立性，就是一个值得考虑的问题。

以网约车的分配策略为例，车辆与乘客的距离，乘车价格，车辆车型和时间都可以作为策略标准，如果A同学做了A策略，B同学做了B策略，身为决策者，我们应该如何评估呢？

如果用A/B测试的话，那我们就需要把用户分成两组，A组用A策略，B组用B策略，两组对比就能得出最终结论。

但细想一下，有没有可能发生这种情况，即A组乘客和B组乘客同时打到同一个司机的车。也就是说，在实验过程中，最终得出的统计指标可能存在交叉影响，但这种影响，只从实验数据上是看不出来、也不容易分析的。

其次，解决了独立性的问题之后，我们还需要考虑A/B测试中存在的置信度和长短期影响的问题。

也正是得益于此般成熟的数据驱动理念，A/B测试逐渐从今日头条的策略推荐，到建立了支持大规模产品实验的A/B测试平台，之后陆续接入抖音、西瓜视频等全线业务，A/B测试也相继被应用于产品命名、交互设计、推荐算法、用户增长、广告优化和市场活动等方方面面的决策上。

如今字节跳动也希望将这项技术能力反哺给社会。以悟空租车为例，该公司已通过火山引擎进行了70多次A/B测试，约有60%为正向实验，提升产品转换率约40%，以往需要一周时间的需求复盘数据分析，现在只要一天就能得到数据结论，更直观地量化了需求价值，极大地提升了效率。

也正如杨震原所说，企业应充分意识到A/B测试的优势和缺陷，对目标选择适合的评估方法。在战略型决策上，需要专家进行长期思考，在细节决策上，能做A/B测试就尽量做A/B测试，同时还要关注到量化分析的执行能力，真正做到数据驱动科学决策。

点「在看」的人都变好看了哦！