前亚马逊产品经理:TikTok的真正优势,并不是算法
共 10615字,需浏览 22分钟
·
2020-11-26 21:56
在我前一篇关于 TikTok 的文章中,我们探讨了 TikTok 的个性化推荐算法 FYP 作为连接组织运转的核心原因,它就好像汽车总线一样,控制连接并形成信息传输的闭环。
但多数人还是非常费解,为什么很多公司想要收购 TikTok,另一方面,字节跳动是否应该将 TikTok 这一备受欢迎的 App 卖掉。围绕 TikTok 算法大肆的炒作已经开始变的异化了,这也是如今西方对中国科技领域项目的普遍分析套路。
在这篇文章中,其实我想探讨一下 TikTok 的设计是如何让它的算法如虎添翼的。之前我有写过 FYP 算法作为 TikTok 核心的原因,也讲到,假如这一核心算法不起作用了,那么整个信息传输闭环就会崩溃。即使你对 TikTok 或短视频不感兴趣,了解其算法如何实现准确性匹配对你也很有帮助,因为越来越多的行业公司将会遇到以机器学习算法为武器的竞争对手。
给大家推荐一本书,詹姆斯·C·斯科特(James C. Scott)的《国家的视角》(Seeing Like a State),它可以将你的思维转变成硅谷人的思考方式,让你喜欢使用甚至滥用 legibility(读懂)这个术语。我也是在读了一篇卡塔什•拉奥(Venkatesh Rao)对这本书的总结性文章时了解到的,如果你不打算读原书的话,Rao 的这篇文章倒是可以推荐作为这本书的 tldr(Too Long; Didn't Read,化繁为简的替代方案)。斯科特·亚历山大(Scott Alexander)对本书的书评也很好,而且非常长,比较详细,也可以作为该书的一篇 tldr。不过我还是建议你读下原著。
这本书能让人们清晰的认识到到日常生活中各种意想不到的后果。当我们太过骄傲自大时,都应该保持谦逊的姿态。世界比我们想象的更加丰富和复杂。
举个例子,斯科特研究的很多内容都与我们现在傲慢的社交网络巨头有关。这些占据市场主导地位的应用程序旨在提高用户群的可识别性,从而提高用户参与度,防止用户流失,并最终提供有针对性的广告服务。当然这些反过来也会给它们的母公司带来一些问题。
但这是另一个话题,之后我在别的文章中再探讨。斯科特关注的是国家如何使用简化的抽象概念在概要层次上“看到”其公民,而我想讨论的是 TikTok 的应用程序设计如何让它的算法“看到”所有需要的细节,从而高效、准确地执行其配对分发工作。如果说《国家的视角》研究了常见失败案例模型,这篇文章便是介绍通过程序和服务的设计使机器学习算法发挥最大价值的新模型。
近年来,至少对于像我这样的局外人来说,大家对机器学习的一个普遍认知是,仅仅通过将训练数据量增加几个数量级就可以取得很大的进步。也就是说,即使算法本身与几年前没有什么不同,仅仅通过在更大的数据集上训练算法,人工智能研究人员便能取得像 GPT-3 这样的突破(这给科技巨头 Twitter 带来了短暂的兴奋)。
当大家谈及 TikTok 的算法是其成功的关键时,便会认为该公司的秘密武器是一些神奇的代码。俄罗斯后现代主义作家维克托·佩列温(Viktor Pelevin)曾说过,所有现代电影的主角都是一个装满钱的公文包。从《死吻》(Kiss Me Deadly)的放射性物质公文包,到《低俗小说》(Pulp Fiction)里面的那个类似的里面金光闪闪的、不知道装着什么的公文包,从《魔头对捕头》(The Formula)的创世纪方程,到大卫·马梅特(David Mamet)的《西班牙囚犯》(The Spanish Prisoner)里面的秘密财务流程,我们长期以来一直对有魔力的麦格芬(McGuffin,推动情节发展的对象或事件)感到痴迷。最近几周,我们对 TikTok 算法的讨论已经把它提升到了类似的高度,这个算法就好像是《夺宝奇兵》系列电影(如《法柜奇兵》(the Ark of the Covenant)、《圣战奇兵》(the Holy Grail)、《魔宫传奇》(lingam Shivling))里面的那些神秘考古文物一样。
但该领域的大多数专家持怀疑态度,TikTok 在机器学习推荐算法方面并未取得外界未知的突破性进展。事实上,他们中的大多数人认为,TikTok 很可能就是基于标准方案解决的问题,跟其他方案无异,没有什么特殊性。
不过机器学习算法的有效性并不仅仅取决于算法本身的函数,还取决于数据集训练后的算法函数。GPT-3 并不是新创意,但是通过大量数据训练和大量的参数设置,它的输出结果往往是令人惊讶的。
同样道理,基于自身数据集训练过的 TikTok FYP 算法,在将视频与觉得该视频有趣的人进行匹配方面做的非常精确和高效(而且,反向匹配做的也很精确,对某些视频不感兴趣的人就不会接收到这些视频) 。
对于某些领域,比如文本相关性较大的领域,可以轻松获得大量训练得很好的数据。例如,要训练一个像 GPT-3 这样的人工智能模型,你可以到互联网、书籍等上面找到大量可用的文本集。如果你想训练一个视觉人工智能模型,你可以在网上和各种数据库里面找到大量照片。虽然训练非常费钱,但是至少你可以获得足够的训练数据。
但对于 TikTok(或中国版抖音)来说,他们需要一种能够出色地向观众推荐短视频的算法,而这样庞大的公开可用训练数据集是不存在的。你在哪里可以找到各种各样的恶搞、孩子们跳舞、假唱、有可爱宠物、名人品牌推广、士兵们穿越障碍球场、孩模仿品牌等类型的视频呢?即使你有这样的视频,你从哪里可以找到关于一般民众对这样的视频看法的比对数据?除了 http://Musical.ly 的数据集以外(主要是由美国十几岁的女孩对口型唱歌的视频组成),这样的数据并不存在。
在经典的“先有鸡还是先有蛋”的问题中,如果没有 App 的相机工具和过滤器、授权的音乐剪辑等,TikTok 算法需要训练的视频类型并不容易创建。
这就是 TikTok 设计的神奇之处:它是一个反馈的闭环,这种设计能够激发并实现视频的创作和观看,产生的数据进而通过其算法进行训练,之后再反过来激发创作和观看。
为了让 TikTok 的算法变得像现在这样有效,TikTok 成为了它自己的训练数据来源。
要理解 TikTok 是如何创造出如此强大的学习飞轮的,我们需要深入研究它的设计。
说到技术领域的 UI 设计,至少在我成长的 20 年里,主流思想始终围绕着如何消除用户在完成他们想做的事情时的阻碍,同时在这个过程中让他们高兴。设计的终极目标是优雅,换个说法是要设计的:直观、巧妙、甚至时尚。
这种设计流派的代表公司便是苹果。巅峰状态下的苹果总能把自己的软硬件做出优雅的感觉——“就是这么好用(it just works)”,但同时又很性感,让用户感觉有品位。在苹果的主题演讲上发布新的 MacBook Pro 机身时,为什么要专门播放一段视频,展示它是如何用一块实心的铝制作而成的?可能是因为看到工业激光把那块铝雕刻成一体化机身会让你感觉很酷?然后,当你在咖啡店里用笔记本电脑发邮件时,那段视频的一些残留记忆又会在潜意识里给你一点点触动?
这种以用户为中心的设计模式占据主导地位如此之久是有原因的,尤其是在消费技术领域。首先,这确实有用。据最新统计,苹果的市值超过了 2 万亿美元。(还记得 Sean Parker 说过有十亿美元很爽吗?那还是十年前,现在十亿美元不再是顶层了。财富的量级在飞速发展。)此外,我们生活在大规模网络效应的时代,科技巨头们运用本·汤普森(Ben Thompson)的聚合理论,获得了庞大的用户基础,可以对他们所参与的市场发挥难以置信的影响力。要做到这一点,最好的方法之一就是设计比竞争对手更好地满足用户需求的产品和服务。
这种设计流派主导了这么长时间,以至于我几乎忘记了之前大家常用的一些拙劣的软件设计方法了。
但是,如果为用户提供最好服务的关键,很大程度上取决于机器学习算法的训练会发生什么呢?如果这个 ML 算法需要大量的训练数据集怎么办?在一个机器学习占据主流的时代,这越来越成为一个关键的设计目标。
在考虑如何设计一个应用程序时,你将越来越多地需要考虑怎么才能最好地帮助算法去“看”。要想更好地服务你的用户,首先需要服务好你的算法。
TikTok 之所以让我着迷,是因为它是一个现代 App 的典范,这就是我所谓的算法友好型设计的范本。(我曾经想过把它叫做以算法为中心的设计,但觉得这种说法有点夸张了。一个帮助算法看见东西的设计到头来仍然是为了给用户提供尽可能好的体验。)
我们仍然可以认为这只是以用户为中心的设计的一种变体,但是对于那些大量采用机器学习算法组件进行产品开发的团队来说,明确地承认这一点可能是有用的。毕竟,当产品经理,设计师和工程师开会讨论 App 设计时,算法是不会出席的。但是,对算法的训练需求必须得到体现。
詹姆斯·斯科特(James Scott)的《国家的视角》谈论了城市设计等领域的巨大变化,比如让土地面积和业主数量对征税者“清晰可见”。TikTok 的设计使它的视频、用户和用户偏好对它的 For You Page 算法清晰可见。该应用程序的设计实现了它的主要职责之一:“像算法一样看事物。”
我们不妨仔细看看。TikTok 打开后就是“For You Page”页面,然后直接进入视频。这就是它的样子。
整个屏幕被一个视频填满。只有一个,它以垂直方向全屏显示。注意,这是不能滚动的,而是分页。视频几乎是立即自动播放(接下来的几个视频是在后台加载的,这样当轮到它们的时候,它们也可以快速播放)。
这种设计会促使用户立即思考一个问题:你对此刻你面对的这段视频有什么感觉?
从视频开始播放的那一刻起,你所做的一切都是你对该视频感受的信息。你会在视频还没播放完的时候就刷到下一个视频吗?是的话就隐含表示你对它不感兴趣(虽然不明确)。
你是不是看了不止一次,让它循环播放了好几次?似乎不知道什么原因它就吸引了你。你有没有通过内置的分享面板分享这段视频?这是正面情绪的另一个有力指标。如果你点击右下角旋转的 LP 图标,看了更多有着同样背景音乐的视频的话,就表明该视频对你胃口的进一步信息。音乐线索往往是模因的代名词,现在 TikTok 又有了一条为你推荐视频的轴线了。还有,你打开了视频制作者的个人资料页面了吗? 你看了他们的其他视频了吗,之后你关注了对方吗? 是的话,说明你除了欣赏视频以外,也许你特别喜欢他们这些人。
但是,让我们往早一点回顾一下,在你看视频之前,TikTok 算法是如何“看到”视频本身的?其实,在这个视频通过 FYP 算法发送到你的手机之前,TikTok 的运营团队有人已经看了这个视频,并添加了大量相关标签或标记。
这个视频是跟跳舞有关的吗?是对口型?还是视频游戏?有小猫吗?还是花栗鼠?是搞笑的吗?主体是男的还是女的?大概几岁?是群视频吗?背景在哪里?用的是什么滤镜或视觉效果?如果里面包括有食物,是什么食物?等等。所有这些标签都成为了算法现在可以看到的特征。
视觉人工智能也会对视频进行处理,并在一定程度上贡献它看到的内容。TikTok 的一些相机滤镜能够追踪人类的脸、手或手势,所以视觉人工智能往往在视频被创建出来之前就被调用过了。
这个算法还可以看到 TikTok 所了解到的有关你的信息。你过去喜欢看什么类型的视频?有关你的人口统计学信息或心理学信息有哪些?你是在哪里看这个视频的?你用的是什么类型的设备?等等。除此之外,还有哪些其他用户跟你相似?
我们不妨回到你在手机上用 TikTok 看视频的那一刻。FYP 算法现在可以关闭所有的反馈回路形成闭环了。它通过你对视频的每一个动作来猜测你对这个视频的感受,以及它的所有属性。
上述所有的步骤都不是像火箭科学那样的硬核技术,尤其是对于那些从事社交算法研究的人来说这些并不新鲜。在我之前的文章中,我说过 TikTok 并没有真正强大的社交图谱。这款应用之所以有如此效果,原因之一是它不会假装自己不是的东西。也就是说,人们已经有了许许多多其他的社交网络和与他们认识的人分享的方式。他们没有强迫人们在 TikTok 应用程序中下载视频,而是让通过外部渠道下载或分享视频变得非常简单。不过,TikTok 想保留的是你选择分享视频这一行为数据。这个数据就能(也只能)满足他们的算法需求。由于这些视频都带有水印,所以它们也可以通过分享获得免费的宣传。实际上,TikTok 之前发表了一篇博客文章,主要描述解释了他们的 FYP 算法工作机制, 我相信大家只要是做软件技术的,看过之后都知道其中并没有什么新鲜的创造。
但是,把 TikTok 的 FYP 算法所看到的东西,跟其他大多数社交网络动态消息的推荐算法所看到的东西对比一下,你就会发现它们不一样在哪里了。
如今,我们最大的社交网络的默认 UI 是无限的垂直滚动 feed(例如,上面 Facebook 的截图)。这些应用程序不是一次为你提供一个故事,而是在屏幕上同时显示多个项目。当你向上滚动并经过许多故事时,算法无法“看到”你的眼睛所注视的是哪个故事。就算能看到,如果用户没有按“点赞”之类的反馈按钮的话,他们对故事的感觉是正面的还是负面的?实际对用户情绪的判断并不清晰。
如果你认同 UI 应该消除沟通阻碍的想法,无限滚动 feed 可能是理想的方案选择。它提供了一种对消费节奏的无拘无束的控制感。
在分页设计中,你一次只能看到一个故事,而手指每推一次只能让 feed 滚动一条,这无论在字面上和还是隐形数据获取上都是一种累赘。
另一方面,如果 Twitter 更有针对性的话,也许你不会介意一次只看一条 Twitter;如果 Twitter 知道更多你真正感兴趣的 Twitter 类型,也许它们会更有针对性。如果你必须在每条推特上给出明确或含蓄的正面或负面信号,Twitter 也许就能更好地了解你真正感兴趣的内容。
即便在有用户参与的互动故事中,判断用户的情绪也不是一件简单的事情。大多数应用程序只有正面的反馈机制,最典型的是某种形式的 like 按钮。由于像 Facebook、Instagram 和 Twitter 这样的应用程序都是基于社交图谱开发的,因此它们可能会选择不提供“不喜欢”按钮。
但是,就像史蒂芬·金在《写作这回事》(On Writing)里面所写那样,“如果你希望成为一名成功的作家,无礼应该是你最不应该关心的第二件事。而你最不应该关心的第一件事,正是这文明社会和它对你的期许。如果你有心真诚地写作,你作为上流社会一员的日子屈指可数了。”
Facebook、Twitter 和 Instagram 等社交网络依靠的是带有明确的正面反馈机制的长滚动信息流,因此在用户更倾向于低阻碍阅读的同时,也牺牲了对负面信息更准确的解读。在创始人和 CEO 是同一个人的公司里,你会看到这种权衡的另一个变体:这样的人往往在自己身边有一群高管,他们听从他们的领导,和他们相处得很好。被一群唯唯诺诺的人包围的危险在于没有任何人来挑战你思维中的盲点。我们总是有必要问一下,谁有足够的权力,能够真正改变像贝佐斯、库克、扎克伯格和马斯克这样的人的想法。答案往往是没有人,所以他们的盲点成为公司的盲点。
像 Reddit 这样建立在兴趣图基础上的网络,确实有吸纳踩(down voting)机制的倾向,因为他们阻止用户流失的主要方法是为他们提供最有趣的内容。这意味着要剔除乏味的内容,就像它要展示吸引人的内容一样。
TikTok 没有显式 downvote 按钮,但是通过每次只提供一条视频,他们可以从你是不是很快就略过不看,以及你没有做某一项积极举动来推断你是否对某条视频不感兴趣。
如果你点击了某人在 Facebook 上发布的一篇文章,但不做评论或者点赞的话,Facebook 怎么能判断你对这篇文章的看法呢?也许你想过在评论中表示强烈的不同意,但是这个人恰恰是你的同事或朋友的朋友,然后你便会决定还是不说为妙。这种负面情绪很难捕捉,算法不能“看到”你的感受。
乏味或引起轻微不快的内容才是慢性杀手。在我之前的文章中,我提到过,由于你自己的兴趣和你认识的人的兴趣不匹配,社交图上的内容可能会偏离用户的真正兴趣。从按时间顺序提供信息到按算法提供信息的转变,通常是针对这种波动的默认防御措施。
但是,如果算法不能“看到”用户越来越不感兴趣的信息,只能看到用户参与的正面信息的话,内容和用户兴趣不匹配的情况就不可避免。你之后可能会发现用户慢慢地失去了兴趣,不再喜欢看那么多东西,不再经常打开你的应用,但是究竟是哪条 feed 让他们离开你还不清楚。当用户表现出要离开的迹象时,通常已经太晚无法挽回了。
对算法友好的设计不一定对用户不友好。它只是采用了不同的方法来满足用户的兴趣。分页可能会给用户带来某种程度的阻碍,但这样做可以为算法提供更详细的信息,从而在长时间内保障 feed 的质量。
最小化阻碍只是获得良好用户体验的一种方法。任何设计的目标都不是减少阻碍,而是帮助用户达到某种目的。减少阻碍通常与这一目标相一致,但并不总是如此。你可能会说,引用推文减少了手动复制他人推文的阻碍,但如果你的目标是 和谐文明的公共讨论的话,那么减少喷子涌到某人推文底下疯狂攻击的阻力也许并不是你要鼓励的核心机制。所以有些形式的阻碍是好的。
你有没有听说许多有影响力的 Twitter 大 V 用户建议其他人尽早把禁言和屏蔽功能使用起来。还有一些用户甚至大量使用软屏蔽功能来秘密拉黑关注者。
有些用户会故意地在推特上发布自己禁言了哪些词的屏幕快照,以表示他们对某些热门话题的不满(或者他们对所讨论话题的智商优越感)。有些人更加极端,甚至取消关注所有人,然后重新关注。有时候,可能因为 A/B 测试良好,Twitter 会向用户展示自己关注的人点赞的推文,甚至是用户自己没有关注过的人的推文。这种做法确实偶尔会展示出一些我感兴趣的推文,但从绝对意义而言,这样增加了我不感兴趣的推文的数量,我不得不滚动过去。没有两个人有完全相同的兴趣爱好。这个功能的发布让我开始考虑取消关注所有人,然后再重新关注,但我也担心会伤害别人的感情,因为我是一个软心肠的人。如果 Twitter 的做法有所改变的话,这就不是问题了。
我有时也会考虑采用其中的部分甚至全部策略,但对于 Twitter 来说,这些策略的存在性本身就是产品设计的失败。如果算法能准确的分辨出什么是你感兴趣的东西的话,它应该去做些替你禁言主题或者拉黑一些人的事情,而不用你再烦心这些事情。正如我上次所写的那样,你必须在 Twitter 上关注所有人才能获得有趣的内容,很多人认为这是基于强大的社交图谱设计的一个缺陷。
TikTok 不仅能明确的捕捉到用户的情绪信息,还能通过每次交互收集大量信息。TikTok 的视频是比较短的,但即便在这样短暂的交互中,TikTok 也能收集到很多关于你喜好的反馈。
这个过程也是比较简单的,即便最让用户感觉不舒服的情况,也就是多推送了几个他们不喜欢的视频,用户直接划掉即可,非常方便。用户甚至会很享受这种操作,因为他们知道基于算法的反馈机制会记录他们的行为并作出反应。短视频正好是非常适合此类机器学习驱动型推荐的类别。
但这并不意味着它适用于所有类型的类别。音乐很合适,时间不长,采样成本低,重复消费的价值高,而且音乐的相似性通常是可以利用数学进行计算的。Spotify Radio 推荐给我的音乐就很可不错。不过电影的算法推荐对我来说从来都没起过作用,电影很长,采样成本很高,语料库也很小,每年只有大约 500 部电影上映,而大多数人只看了其中的一小部分。这整个话题可以单独发表一篇文章再讨论。
顺便说一句,TikTok 并不是唯一一款针对匹配目标对界面进行优化的应用程序,这里指每次只展示一个页面,从而可以更清楚地分析出用户感受的应用程序;在 TikTok 之前,单页展示一项内容的 UI 设计已经比较流行了。
向右滑和向左滑成为表示认可和不认可的代名词是有原因的。Tinder 在触摸屏 UI 上设计了一个类似于二进制投票的原始设计。
在这个软件时代,真正的竞争优势,或者你产品的护城河,正变得越来越虚幻。大多数软件功能或 UI 设计都可以在一夜之间轻易地被同类产品或竞争对手复制。先行者做的很多事情都是替他们试试水而已。有一次我去中国的的时候,曾经跟一帮中国的企业家共进晚餐,我提到了 Instagram 抄袭 Snapchat 的 Stories 引起的争议。一家中国顶级公司的首席产品官笑着说:“在中国,如果你的竞争对手在两周之内不能把你的某项成功的功能复制出来的话,那么他们是不足以作为竞争对手的。”
硅谷自以为是创意市场的达尔文主义者,但种种迹象表明,中国的科技界才是的真正的达尔文主义;这对硅谷的相对产出来说是个坏兆头,因为在中国观念传播和变异的速度更快。人们通常说硅谷已经替代了波士顿的 128 号公路(Route 128)(曾经的电子工业中心)成为技术创新的地理中心,部分原因是硅谷更开放的劳动力市场允许创意在公司之间自由流动。中国采取了同样的做法,并且更加完善了这种策略。想要在竞争激烈的中国科技行业中生存下来,就像是想要从《黑暗骑士崛起》里面的那个坑里面爬出来一样——很恐怖。
但如果你能创造出像 TikTok 那样的飞轮,那么像 Reels 或 Triller 这样的竞争对手就很难赶上你了。Triller 可能会花钱把 TikTok 的一些网红挖过来制作视频,Reels 可能会尝试从 Instagram 引流,但 TikTok 之所以能成功是因为高效的 FYP 算法把创作者、视频以及观看者连接成一个正向的反馈回环。
在科技行业,布赖恩·阿瑟(Brian Arthur)提出了经济的报酬递增与路径依赖理论,在这个行业当中,第一个实现产品市场匹配的竞争对手可能会脱颖而出。在一个日益紧密相连的世界里,市场给人的感觉是越来越赢家通吃的。
字节跳动往往被说成是一家算法公司,而 TikTok 在过去几周被认为是靠这种算法的黑魔力才取得的成功;很多人甚至认为,如果收购条款中不包含算法在内的话,TikTok 就不值得购买。
在我看来,这个观点是错误的。我并不是认为算法不重要,的确,重新训练 FYP 的推荐算法可能需要很长时间,甚至这期间会导致部分用户流失。但是,真正有价值的在于 TikTok 的设计和流程里面的每一个元素是怎么互相关联到一起,从而创建出一个数据集,再通过这个数据集,把算法训练成最佳性能的——这个反馈回环里面没有一步是超出了美国众多工程师的能力范围的,我们所需要的就是理解这个飞轮是如何工作的,并保证让每一个元素和流程都正常运转。
我遇到过的一些产品或服务似乎在算法推荐的质量上都遇到了天花板:这里面包括 Yelp、OpenTable、Google、Netflix 等;不要误会我的意思,这些公司很多都已在舒适区了,我只想让他们的产品可以更上一层楼,对算法更友好的设计也许就是有效的解决方案之一。
回顾一下,在我关于 TikTok 的系列文章的第一篇当中,我讨论了该算法如何作为一种匹配机制,使 TikTok 成为一个可伸缩的娱乐网络。相比之下,社交网络必须使用社交图谱来做兴趣图谱的事情,这就带来了很多问题。在关于 TikTok 的第二篇文章中,我着重介绍了它的设计如何帮助它的机器学习 FYP 算法“看到”它需要看到的东西,从而有效地完成它的工作。对算法友好的设计理念可能会成为其他垂直领域的公司如何在机器学习时代取得优势的一种模式。
TikTok 的案例之所以那么的迷人而且异类,还有最后一个原因。这一点与软件和算法关系都不大,而与我孜孜不倦研究的文化决定论有很大的关系:创意的网络效应。这将是我关于 TikTok 系列文章的第三篇,也是最后一篇文章的主题。
英文原文链接:
Seeing Like an Algorithm
https://www.eugenewei.com/blog/2020/9/18/seeing-like-an-algorithm
· END ·
关注后台回复【Airpods】参与苹果耳机抽奖
几个号主共同举办的众筹活动
真实有效,没有套路!
点个在看少个 bug ?