与视频相比，声音到底价值几何？-技术圈

近几年，不论国内海外，几乎每年都会冒出“播客复兴之年”的呐喊。重要的其实不是问为什么当下它值得关注，而应该问，为什么它屡屡“复兴”、但又似乎从未真正繁荣？

文 | 曾翔

腾云特约作者

关于声音的价值，从资本和产品的视角，许多年前便已有过“研判”。

例如，十年前，互联网女皇Mary Meeker在年度互联网趋势报告透露一条信息：除了当时的互联网之外，还有一类亟待价值修复的内容形态——Radio，即包括广播在内的音频内容。

她的依据是，当年广播依然占据着人们16%的使用时长，但相较于图像、电视和互联网，广播的广告占比只有9%。

十年后，全球音乐巨头Spotify（众所周知，该公司在去年强势入局播客业务）的创始人Daniel Ek也发出了一个著名的疑问：

消费者在视频上花费的时间与在音频上花费的时间大致相同。但视频市场规模约为 1万亿美元，而音乐和广播业的总价值约为1000亿美元。

所以，我们眼睛的价值真的比耳朵高出十倍吗？

与此同时，围绕耳朵的生意在近年来都保持了高速增长。即便是在困难的2020年，以Airpods为代表的真无线耳机的全球销量达到了3亿台，同比增长230%，2020年全球智能音箱销量也达到了创纪录的水平。

看起来，耳朵的价值似乎正在被重构。但这是否意味着“耳朵”要逆风反叛？以播客为代表的音频行业接下来又将走向何方？

我们不妨先看看播客的历史。

播客是怎样走到今天的？

让我们先把时间拨回十几年前，理解“Podcast（播客）”一词是如何被创造出来的。

在那个智能手机尚未面世的年代，2004年2月，一位英国记者在《卫报》一篇文章中写到：

现在有了MP3播放器（如可以放在口袋的 iPod），有了足够便宜的音频制作软件，那必然会出现基于互联网生产、传播的音频内容。它该怎么称呼？像博客那样，叫Audioblogging？或者Podcasting? ”

这可能是Podcast（中译名：播客）第一次被严肃公开地讨论。此后不久，这个词被主流学界认可并收录。次年，这种新的内容形式正式加入苹果iTunes商店。

乔布斯在这个时候顺水推舟宣布：

Podcast是下一代广播，大家现在可以订阅超过3000个免费播客，并通过互联网自动下载所有最新单集。

按照播客创业公司RadioPublic创始人的观点，从播客正式出现至今，已经涌现过三次激动人心的“浪潮”：

第一次发生在2004-2006年。

iTunes首先集成了播客这一形态内容，而另一个在当年相对知名的“播客产品”Odeo则由Ev Williams等人创立并运营。

Odeo是一个基于RSS的音频和视频的目录及搜索网站，在移动互联网尚未普及的年代曾收获一大批拥趸。但没过多久它被放弃，Ev Williams等转头做了一个日后影响世界的社交产品——Twitter。

第二波浪潮发生在2008年前后。

iPhone一经推出大受欢迎，基于这个新兴硬件平台的应用生态也开始蓬勃发展，Stitcher、Public Radio Player等产品应运而生。

第三波则兴起于2014年。

这一次，不仅主流广播平台（如美国的NPR等）涉足播客，众多互联网巨头和创业公司也纷纷加入战局。

一时间，产品数量激增，而伴随着新产品的出现，海量受众和内容也纷至沓来。如今，正如我们所看到的，全球大型科技公司、社交媒体和热门创业公司都在押注音频。

以北美为例，苹果、亚马逊和谷歌都拥有自己的语音助手；社交巨头Facebook和Twitter开始音频内容的尝试，后者在一年多前推出了音频推文，眼下正在测试新的Spaces功能以允许用户实时对话；海外最大流媒体音乐公司Spotify过去两年也花了近十亿美元收购播客公司、洽谈播客版权，从而开始新领域的扩张。

更不必说前阵子引爆圈层的新兴音频社交产品Clubhouse，数月之间带来千万级别的下载量和全球用户，一码难求的场面堪称火爆。

类似情况也正在国内发生：语音助手的赛道早已涌入小米、华为以及一系列互联网巨头，而播客的持续兴起也引发大公司的兴趣。已经有不少媒体急着将2021年定义为“中文播客元年”。

如果非要总结，从市场的角度来看，这些现象的背后至少存在两个重要原因：其一，视频（尤其是短视频）行业在过去两年已经太过拥挤，市场格局已定，大家开始寻找新的机会；其二，声音所代表的连接感、亲密感、陪伴感，区别于其他媒介类型，有望深挖出不小的潜力。

接下来的问题是，为何是当下这个时间点音频被屡屡提及？它自身是否已经做好准备？

音频准备好了吗？

关于上面说的问题，有至少三个背景需要理解。

背景一：（基于声音的）技术创新已经成熟，足够消费者友好。

包括自然语言处理（NLP）、语音识别和语音转文本等技术正达到临界点。比如，自动语音识别准确率早已超过95％。而得益于语音识别工具，它们使得索引音频内容成为可能。所以，准确性与改进的等待时间相结合，可以实现几乎实时的语音识别和转录，于是音频的搜索、个性化推荐和货币化变得更加容易。

背景二：（基于声音的）新硬件平台正在崛起，消费者规模达到一定量级。

以美国为例，从数据上看，美国家庭有超过5亿台设备可以通过语音直接控制，包括联网汽车、智能音箱和AirPods等，这些设备的语音接口已经成为主流。谷歌甚至报告说，全球27％的在线用户都开始在移动设备上使用语音搜索。

更不必说，智能音箱革命带来了通过语音进行人机互动、交流的机会。这些设备是某种意义上的“永远在线”，这意味着它们可能成为一种新的渠道，而这种和用户接触的新渠道有机会被新一代创业公司利用。

背景三：（基于声音的）新互动方式正在固化，消费者习惯逐渐形成。

音频交互模式代表着继PC、移动互联网之后的一股新浪潮，它有潜力成为第三次主要硬件平台和UI的转变（PC—手机—广义语音设备）。

当前消费者对音频的熟悉度和接受度已经大大提高，一个例证就是用户对Siri、Alexa等越来越习惯和依赖。许多人相信，过去十年，手机软件是现实世界的远程遥控器；未来十年，语音也许会发挥类似作用。

声音这一媒介的繁荣，不仅意味着诸如Siri、Alexa之类的语音助手更加易用，而且还为新的社交行为打开了大门（2021年初Clubhouse的火爆便是例子）。

播客未来会走向何方？

但是我们又会发现，过去互联网及其背后的技术进步，屡次推动了媒体的转型，于是才有了图文、视频消费平台和方式的迅速变化。而在这个过程中，播客自身的变化又极其缓慢。

我曾指出其原因：

其一，音频很难通过速读抓人眼球，唯有靠内容创作者自身影响力来吸引少部分黏性够强的“观众”消费，对社群有较强依赖；

其二，很少有人“专注”消费音频，多数时候会同时干点其他事，比如运动、开车、做家务，这种场景极不方便即时分享转发。

这或许可以理解为播客和听众之间天然存在的种种摩擦。但转念一想，在这个各类信息都爆炸式增长的年代，存在这样一些在可用性、可发现性和可衡量性上存在摩擦的产品形态，不一定是件坏事。

那么，面向未来，“声音”这个大赛道可能孕育哪些有价值的产品和公司？

知名硅谷投资人Gaby Goldberg认为，新的媒介形态必然会带来新的内容平台，对这类平台而言，创作者和消费者是最宝贵的财富。

正因如此，声音赛道和音频创作相关的基础设施是第一位的。

一个颠扑不破的道理是：在淘金热期间，试着向人们出售铁锹。

在音频领域，怎样的公司能够充当基础设施的功能？也许可以通过横向对比其他内容类型（图片、视频）来思考这个问题。

例如，Canva和Instagram等使照片创作、共享更为主流，而YouTube和TikTok等则使视频更加深入人心。此外，能够帮助扩大音频创作者渠道的工具也属于此类。比如Spotify对Anchor的战略收购，这意味着能够创建和分发播客的工具被拥有2亿用户的Spotify社区接纳。

第二类有想象空间的产品，则是工作场景下的声音传递/共享工具。直到目前，互联网语音技术才开始逐步渗透到工作场景。这主要是因为疫情之下人们的工作和生活变得相对孤独，所以开放办公室和远程工作都偏好远程音频、视频解决方案。

随着工作中的语音体验变得越来越普遍，如果异步音频领域有新的创新，也许会是更奇妙的感受。

那么，音频的未来会是什么样？

显然，单一的技术和媒介不会单独出现，但它可以赋予一些过去行为以新的体验。比如，社交/社区+音频可能会是一种重要趋势。在此前投出过Skype、Facebook、Instagram、Twitter等知名社交平台的硅谷风投A16Z来看，要尝试推演社交+音频的去向，社交+视频提供了一个很好的参考作用。

YouTube是第一代互联网视频的头部产品，但是在它成立之后的16年（2005-2021），众多挑战者也纷纷有自己的创新。

如今，视频这种媒介已经变得异常丰富，以海外为例，YouTube试水短视频，Zoom 主导视频会议，Snapchat推出Stories，Twitch做游戏直播。它们都是同一种媒介下的不同变体。

除了以上所列出的独立视频产品，“视频”还被当作一种嵌入式功能添加进其他产品：比如远程协作工具、社交软件等等。

实际上，“视频”不仅仅指媒介本身。由谁制作视频？如何交付？什么时候可以看到？如何发送？为什么发送？观众会如何反馈？这些问题都很重要，而且这比“视频软件”这个笼统的术语要清晰得多。

从用户体验的角度看，音频在某些方面的交互与视频类似，在某些方面又完全不同。

相似点在于：像视频一样，音频可以提供用户享受数小时的悠闲时间。明星、名人的视频很有趣，聆听他们的声音也很有意思。此外，使用手机来创建音频内容也很熟悉且容易。

所以，社交+音频将如何创新？可能有两个大的主题：

其一，内容形式的创新

一方面，我们已经看到非常简短的、易于创建的图文和视频内容有多受欢迎，比如Twitter和Snapchat Stories。另一方面，WordPress之类的博客平台，Substack之类的新创作平台也推动着长篇写作的发展，YouTube、Netflix等推动着长视频的发展。

那么，长内容和短内容也都可能在音频平台上有所作为。

实时语音通信是音频短内容最易实现的方式，但会显得混乱。如果效果过于粗糙，可能就没那么有意思。这是社交+音频直接对标Twitter的产物。

在此基础上有了Clubhouse，它比上面讲的这个粗糙方式更精致也更好玩，让人与人之间更具流动性。但可能还有其他方法：比如是否可以进一步激发有意义的异步互动？是否可以专注于某个特定的创作者领域（比如脱口秀、新闻时事、体育、商业等等）做出垂直社区？

其二，业务模型的演进

近年来，在线内容的商业模式一直在发展，国外的Substack、Patreon等，国内的微信公众号、小红书、知乎等，都在为创作者提供更多的方法，使他们可以通过直接交易而不仅仅是广告完成商业化。

这意味着：在广告驱动的世界中，创作者通常没有得到其粉丝/受众的支持。创作者的粉丝其实愿意付出更多。

音频可能会出现相同趋势。以播客为例，自身广告业务规模一直较小（不到10亿美元），广告投放平台和基础技术没有大的改进，广告主无法很好地测量和跟踪ROI。因此，创作者会很自然地尝试直接向受众收费。比如，提供免费基础服务，同时需要付费购买高级/特殊产品。

声音的未来？

现代传播学理论奠基者麦克卢汉曾对媒介有过这样一个分类：不同形式的媒介在以自己的方式调动我们的感知，进而影响我们对信息的理解和判断。按照传递信息清晰程度的不同，媒介有冷、热之分。

一种解释是：冷媒介是指它传达的信息量少而模糊，在理解时需要动员多种感官的配合和丰富的想象力。因此，如电话属于冷媒介，因为清晰度低，它们要求受众用多种感官去感受，并且需要丰富的联想和参与，为媒介也为受众自己填补其中缺失的部分。而热媒介与之正好相反。

学界关于冷热媒介的讨论一直未曾停止，冷热媒介也并非衡量一种媒介受欢迎程度、成功与否的一尘不变的标准。但它带来的一个启示是：不同媒介能够引起人的心理和行为反应不尽相同，用今天的话说，其带来的“用户体验”差别甚大。

那么，回到我们最初的问题：比起视频营造出来的丰富体验，声音自身的“劣势”能否被突破，为人们创造更加独特和丰富的体验？以及，这需要通过怎样的设计理念、技术手段来实现？

或许不久之后我们就将得到答案。

----------------- 往期回顾 -----------------

点击关注腾云，获取更多精彩内容

喜欢本文？快点亮右下角“在看”图标吧↘