谷歌、微软、亚马逊6个惊人的A/B测试实例-技术圈

导读：本文介绍的其他实例都有不同寻常且出乎预料的正面结果。

作者：罗恩·科哈维（Ron Kohavi）、黛安·唐（Diane Tang）、许亚（Ya Xu）

来源：大数据DT（ID：hzdashuju）

如果你认为一件事情会发生，然后它真的发生了，那么你不会学到什么。如果你认为一件事情会发生，但没有发生，那么你会学到一些重要的东西。如果你原本认为一件事情不值一提，但它带来了惊人的或突破性的结果，那么你会学到一些非常有价值的东西。

必应和社交网络（如脸书和推特）相结合的尝试，是一个没有达到预期效果的例子——这一尝试在历经了长达两年的多个结果显示无价值的实验后告弃。

虽然经久的进步来自持续的实验和很多小的改进（如必应广告的例子所示），但这里介绍的几个有惊人效果的例子表明了我们有多不擅长预估想法的价值。

01 UI实例：41阶蓝

谷歌和微软的很多例子都一致显示：小的界面设计决策也可能有重大的影响。谷歌在搜索结果页面上测试过41个阶度的蓝色，这让当时的视觉设计负责人很受挫。

然而，谷歌对配色方案的调整给用户活跃度带来了实质性的提高（谷歌没有报告单一改动的结果），并促成了之后设计团队和实验团队的高度协作关系。

微软的必应也做过类似的配色改动，帮助用户更成功地完成任务，改善了任务成功需时，将美国市场的年营收提高了超过1千万美金。

这些都是微小改动带来巨大影响的很好的例子，但由于配色方案已经被广泛地测试，在更多实验中“玩”配色已不太可能带来更加显著的改进。

02 在正确的时机显示推广

2004年，亚马逊在主页上放置了信用卡推广，该推广带来了可观的利润，但是点击率（Click-Through Rate, CTR）很低。团队进而运行了把该推广移至购物车页面的实验，用户把商品加入购物车后，可以看到一个简单的计算，从而对该信用卡带来的优惠额度一目了然，如图1.5所示。

▲图1.5 亚马逊购物车的信用卡推广

因为已经在购物车添加了商品的用户有非常明确的购物意图，所以这一推广出现在了正确的时机。对照实验显示这一简单的改动帮助亚马逊增加了数千万美金的年利润。

03 个性化推荐

亚马逊的Greg Linden做过一个产品雏形，根据用户购物车里的商品显示个性化的推荐。当你添加一件商品时，会看到一些推荐，再添加另一件商品，会看到新的推荐。

Grey Linden指出，虽然这个产品雏形看起来颇有前景，但一个市场营销高级副总裁极力反对，称它会分散用户注意力而影响结账。Greg Linden被禁止继续这项工作。

尽管如此，他还是运行了一个对照实验，并且这一新功能大幅获胜，放弃它将使亚马逊蒙受可观的损失。带着新的紧迫性，购物车推荐很快被发布了。如今，很多网站都在使用购物车推荐模型。

04 速度非常关键

2012年，微软必应的一个工程师对JavaScript的生成方式做了改动，大大缩短了HTML到达客户端的时间，从而提高了性能。相应的对照实验显示了多项指标令人惊叹的改进。

他们接着做了跟进实验来测量对服务器性能的影响。结果显示性能提高的同时也显著提高了关键用户指标，例如成功率和首任务成功需时，且每10毫秒的性能提升（眨眼速度的1/30）足以支付雇佣一个全职工程师一年的成本。

2015年，随着必应性能的提高，人们产生了疑问：服务器结果返回时间的95百分位数（即95%的搜索请求）已经在1秒以下，进一步提高性能是否仍有价值。必应的团队开展了跟进研究，发现关键用户指标仍旧得到了显著提高。

虽然对营收的相对影响有一定程度的减弱，但由于必应的营收在那几年增长如此之多，以至于性能上每1毫秒的提升都比过去更有价值，每4毫秒的改进就能雇佣一个工程师一年！

许多公司都做过性能实验，结果都显示性能多么关键。在亚马逊，一个100毫秒的减速实验使销售额减少了1%。必应和谷歌的一个联合讲演展示了性能对关键指标的显著影响，包括去重搜索词条、营收、点击率、用户满意度和首点击需时。

05 减少恶意软件

广告是一项有利可图的生意，用户安装的“免费软件”经常包含插入广告污染页面的恶意软件。图1.6显示了一个含有恶意软件的必应搜索结果页面。注意有多个广告（用方框圈出）被插入这个页面。

▲图1.6 含恶意软件的必应页面显示了多个广告

这些不相关的低质量广告不仅移除了必应自己的广告，从而侵占了微软的营收，也给用户带来了糟糕的体验，用户可能都没有意识到为什么他们会看到这么多广告。

微软对380万潜在受影响的用户运行了一个对照实验：修改文档对象模型（Document Object Model, DOM）的基本路径被覆写，只允许少数可靠来源的修改。结果显示必应所有的关键指标（包括人均会话数）都有所提高，这意味着用户访问的增加或用户流失的减少。

除此之外，用户的搜索也更加成功，能更快地点击到有用的链接，必应的年营收也增加了数百万美金。前文讨论过的关键性能指标，比如页面加载需时，在受影响页面上也提升了几百毫秒。

06 后端改动

后端算法的改动是在运用对照实验时常常被忽视的领域，但它可能带来重大影响。这里我们讨论一个来自亚马逊的实例。

回到2004年，当时亚马逊已经有了基于两个数据集的很好的推荐算法。其标志性功能本来是“买了X的用户也买了Y”，但后来被延伸为“浏览了X的用户也买了Y”和“浏览了X的用户也浏览了Y”。

有人提出了一个方案，使用同样的算法推荐“搜索了X的用户也买了Y”。这个算法的支持者给出了含义不明的搜索的例子，比如“24”，多数人会联想到Kiefer Sutherland主演的电视剧。

亚马逊的原算法对“24”返回的结果比较糟糕（图1.7左），有会24首意大利歌曲的CD、24月龄婴儿穿的衣服、24英寸的毛巾杆等。而新的算法表现比较出色（图1.7右），根据用户搜索“24”后实际购买的项，返回了相关电视剧的DVD和书籍的搜索结果。

▲图1.7 有BBS（Behavior-Based Search，基于用户行为的搜索）和没有BBS时在亚马逊上搜索“24”的结果

该算法的一个不足是返回的某些商品并没有包含搜索关键词。亚马逊运行了一个对照实验，即使有上述不足，这一改动也将亚马逊的营收提高了3%——数百万美金。

关于作者：罗恩·科哈维（Ron Kohavi）是爱彼迎的副总裁和技术院士，曾任微软的技术研究员和公司副总裁。在加入微软之前，他是亚马逊的数据挖掘和个性化推荐总监。他拥有斯坦福大学计算机科学博士学位，论文被引用超过40 000次，其中有3篇位列计算机科学领域引用最多的1 000篇论文榜。

黛安·唐（Diane Tang）是谷歌院士，大规模数据分析和基础设施、线上对照实验及广告系统方面的专家。她拥有哈佛大学的文学学士学位和斯坦福大学的硕士及博士学位，在移动网络、信息可视化、实验方法、数据基础设施、数据挖掘和大数据方面拥有专利和出版物。

许亚（Ya Xu）是领英数据科学与实验平台负责人，曾撰写了多篇关于实验的论文，并经常在顶级会议和大学演讲。她曾在微软工作，拥有斯坦福大学的统计学博士学位。

本文摘编自《关键迭代：可信赖的线上对照实验》，经出版方授权发布。

延伸阅读《关键迭代：可信赖的线上对照实验》

点击上图了解及购买

转载请联系微信：DoctorData

推荐语：爱彼迎、谷歌、领英A/B测试领军人物撰写，亚马逊、谷歌、微软和领英等公司互联网产品成功的秘诀！谷歌院士JeffDean、脸书首任CTO、沈向洋等37位专家推荐。本书基于近些年实验领域的研究成果和实践经验，对实验的方法和应用做了很好的全景式描述，是一本兼顾系统性的方法论和基于实战的经验法则的书籍。

划重点👇

干货直达👇

手把手教你用Scrapy爬取知乎大V粉丝列表
终于有人把任务T、性能P和经验E讲明白了
什么是数字化转型？来自IBM、微软、阿里的精华观点和实践
终于有人把赌徒谬误讲明白了

更多精彩👇

在公众号对话框输入以下关键词

查看更多优质内容！

PPT | 读书 | 书单 | 硬核 | 干货 | 讲明白 | 神操作

大数据 | 云计算 | 数据库 | Python | 爬虫 | 可视化

AI | 人工智能 | 机器学习 | 深度学习 | NLP

5G | 中台 | 用户画像 | 1024 | 数学 | 算法 | 数字孪生

据统计，99%的大咖都关注了这个公众号

👇