从抖音起名说起,字节跳动解密数据驱动的正确打开方式

共 3235字,需浏览 7分钟

 ·

2021-04-23 12:01

大数据文摘出品

根据抖音官方于1月5日发布的2020年度数据报告,截至2020年8月,抖音日活跃用户突破6亿,截至2020年12月,抖音日均视频搜索次数突破4亿
 
这其中,肯定有你我的功劳。
 
但是,身为抖音重度用户,文摘菌要考考大家,你知道“抖音”这个名字是怎么来的吗?
 

4月20日,字节跳动旗下火山引擎的技术开放日在北京方恒时尚中心举办,字节跳动技术负责人杨震原就数据驱动以及A/B测试发表了演讲,期间他也透露了“抖音”的名字由来。
 
“抖音”这一名字,综合了A/B测试和人为判断的结果,“虽然‘抖音’这个名字在测试结果中排名第二。但大家觉得,这个名字更符合认知,更能体现它的形态,所以还是选了它”。
 
也就是说,“抖音”这一名字,其实综合了数据驱动和人为思考的共同决策,也和字节跳动的A/B测试紧密地绑定在一起

数据驱动很重要,但也不是有数据就能驱动


“数据驱动”这个词,对于身处于大数据时代的你我已是耳熟能详。这种将数据作为生产资料正向反馈到经营活动中的行为,早已成为了科学决策的代名词。
 
但是,由于过分追求“数据决策”,也有不少企业会陷入“唯数据论”的误区,认为只要有数据支持,就能做出比人为思考更科学的策略。
 
对于如何更合理地实现数据驱动,在2020年大数据文摘联合清华大数据研究院联合发布的《顶级数据团队建设全景报告》中就明确说明,“要依赖数据做决策,但不能只依赖数据做决策”
 
在评估方法中有“经验判断”这一分类,即主要靠人的主观判断。在公司决策上,主要依靠于领导层的决策,这一方法目前在大多数公司中得以采用,不过究其问题,不仅在执行上困难重重,也很难纠正有偏性。因此,在进行重大问题决策时,并不是有数据就可以的,还需要有效的验证数据的方式
 
如何更好地利用数据,以实现真正的数据驱动,A/B测试就是不二选择。但要真正用好A/B测试,还需要理解,什么是真正意义上的A/B测试,什么是非A/B测试。
 
对于非A/B测试,可以用一个例子简单说明。如下图所示,这张照片用清晰的数据格式向我们证明了,巧克力吃得越多的国家,诺贝尔奖得主也就越多。也就是说,如果我们想多拿诺贝尔奖,就必须多吃巧克力了?


这个结论显然是不靠谱的,两个事件存在相关性,并不能直接推导出存在因果性。而如果在决策中出现这种情况,就会面临不小的风险。

简单公正,科学创新:A/B测试辅助数字化管理


说回A/B测试,这一方法并非互联网公司原创。早在18世纪坏血病肆虐时,英国一位医生就利用了A/B测试,他把患有坏血病的水手随机分成六组,用不同方法进行治疗,从而确定了柠檬和橘子能有效治疗坏血病。这也是人类有记载最早的A/B测试。
 
 
如今,这一方法已经被互联网公司纳入数字化管理中来。企业在做产品/功能测试时,一般都会用到A/B测试,即把用户分为两组,对照组和实验组。对照组采用已有的产品或功能,实验组采用新功能,要做的是找到他们的不同反应,并以此确定哪个版本更好。
 
如此看来,A/B测试似乎效率很低,既要分组,还要时刻关注影响因子的存在。
 
但是试想,当真正清楚一个事件以及它的影响因素后,我们就可以顺着台阶步步为营,反之这种进步就是间断的。而A/B测试就是稳中求胜的关键一环。
 
在硅谷,互联网公司早已将A/B测试纳入企业数字化管理中来了,在LinkedIn、谷歌这类以数据为主导的领先互联网公司中早已形成了共识:A/B测试简单公正,既跳过了争论,也在一定程度上提倡数字化引导的科学创新。
 
LinkedIn全球数据科学团队负责人许亚曾在采访中对大数据文摘表示,在用户看得到的与看不到的地方,LinkedIn都坚持着A/B测试。
 
以一款好的互联网产品为例,从搜索栏、搜索引擎算法、底部导航,到页面文字大小,这些都是可以经过A/B测试的。除了这些用户能看到的地方,在后端用户看不到的地方,很多优秀的互联网公司也会贯彻A/B测试思维。

比如打开APP要加载内容,需要从后端系统里获取数据,每次获取20条数据还是100条数据,这个决策就涉及到平衡与取舍,获取数据越多,页面加载时间越长;获取数据越少,用户浏览的时候就需要频繁刷新。所以到底一次获取多少数据,也可以提前用A/B测试做决策。

这些看似微细的细节,实际上隐藏着了一款产品成功与否的密码。

字节跳动的A/B测试实践:要数据驱动,但不能唯数据论


那么,在字节跳动内部,A/B测试是如何实践的呢?
 
早在2012年,字节跳动成立初期,张一鸣就已经开始在做A/B测试了。现在,内部来说,字节跳动每天大概新增1500个实验,服务400多项业务,累计已经做了70万次实验。
 
 
或许也是基于此,外界有观点把字节跳动称为“A/B测试公司”,对于此,张一鸣曾在公司7周年庆典上表示,“我发过一个微头条:同理心是地基,想象力是天空,中间是逻辑和工具。AB测试只是一个工具而已,是测不出用户需求的,同理心才是重要的基础。如果没有同理心,做出的产品肯定没有灵魂,不能满足用户需求。但是光有同理心还不够,这样只能做出有用的产品。想要做出彩的产品,想象力非常重要”。
 
不难看出,字节跳动所秉承的,正是“要依赖数据做决策,但不能只依赖数据做决策”的理念。
 
对于不能“唯数据论”这一观点,杨震原直接指出,不能盲目迷信A/B测试,A/B测试并非万能,在具体实践上,A/B测试还存在着问题和操作难度。
 
比如在进行A/B测试之前,首先需要对实验对象进行分组,再由操作者分别对两组进行不同的操作,对比结果从而得出结论。
 
这听上去似乎很容易实现,但首先如何确定两个分组的独立性,就是一个值得考虑的问题。
 
以网约车的分配策略为例,车辆与乘客的距离,乘车价格,车辆车型和时间都可以作为策略标准,如果A同学做了A策略,B同学做了B策略,身为决策者,我们应该如何评估呢?
 
如果用A/B测试的话,那我们就需要把用户分成两组,A组用A策略,B组用B策略,两组对比就能得出最终结论。
 
但细想一下,有没有可能发生这种情况,即A组乘客和B组乘客同时打到同一个司机的车。也就是说,在实验过程中,最终得出的统计指标可能存在交叉影响,但这种影响,只从实验数据上是看不出来、也不容易分析的。
 
其次,解决了独立性的问题之后,我们还需要考虑A/B测试中存在的置信度长短期影响的问题。
 
 
也正是得益于此般成熟的数据驱动理念,A/B测试逐渐从今日头条的策略推荐,到建立了支持大规模产品实验的A/B测试平台,之后陆续接入抖音、西瓜视频等全线业务,A/B测试也相继被应用于产品命名、交互设计、推荐算法、用户增长、广告优化和市场活动等方方面面的决策上。
 
如今字节跳动也希望将这项技术能力反哺给社会。以悟空租车为例,该公司已通过火山引擎进行了70多次A/B测试,约有60%为正向实验,提升产品转换率约40%,以往需要一周时间的需求复盘数据分析,现在只要一天就能得到数据结论,更直观地量化了需求价值,极大地提升了效率。
 
也正如杨震原所说,企业应充分意识到A/B测试的优势和缺陷,对目标选择适合的评估方法。在战略型决策上,需要专家进行长期思考,在细节决策上,能做A/B测试就尽量做A/B测试,同时还要关注到量化分析的执行能力,真正做到数据驱动科学决策。


点「在看」的人都变好看了哦! 
浏览 40
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报