与视频相比,声音到底价值几何?
近几年,不论国内海外,几乎每年都会冒出“播客复兴之年”的呐喊。重要的其实不是问为什么当下它值得关注,而应该问,为什么它屡屡“复兴”、但又似乎从未真正繁荣?
文 | 曾翔
关于声音的价值,从资本和产品的视角,许多年前便已有过“研判”。
例如,十年前,互联网女皇Mary Meeker在年度互联网趋势报告透露一条信息:除了当时的互联网之外,还有一类亟待价值修复的内容形态——Radio,即包括广播在内的音频内容。
她的依据是,当年广播依然占据着人们16%的使用时长,但相较于图像、电视和互联网,广播的广告占比只有9%。
十年后,全球音乐巨头Spotify(众所周知,该公司在去年强势入局播客业务)的创始人Daniel Ek也发出了一个著名的疑问:
消费者在视频上花费的时间与在音频上花费的时间大致相同。但视频市场规模约为 1万亿美元,而音乐和广播业的总价值约为1000亿美元。
所以,我们眼睛的价值真的比耳朵高出十倍吗?
与此同时,围绕耳朵的生意在近年来都保持了高速增长。即便是在困难的2020年,以Airpods为代表的真无线耳机的全球销量达到了3亿台,同比增长230%,2020年全球智能音箱销量也达到了创纪录的水平。
看起来,耳朵的价值似乎正在被重构。但这是否意味着“耳朵”要逆风反叛?以播客为代表的音频行业接下来又将走向何方?
我们不妨先看看播客的历史。
01
播客是怎样走到今天的?
让我们先把时间拨回十几年前,理解“Podcast(播客)”一词是如何被创造出来的。
在那个智能手机尚未面世的年代,2004年2月,一位英国记者在《卫报》一篇文章中写到:
现在有了MP3播放器(如可以放在口袋的 iPod),有了足够便宜的音频制作软件,那必然会出现基于互联网生产、传播的音频内容。它该怎么称呼?像博客那样,叫Audioblogging?或者Podcasting? ”
这可能是Podcast(中译名:播客)第一次被严肃公开地讨论。此后不久,这个词被主流学界认可并收录。次年,这种新的内容形式正式加入苹果iTunes商店。
乔布斯在这个时候顺水推舟宣布:
Podcast是下一代广播,大家现在可以订阅超过3000个免费播客,并通过互联网自动下载所有最新单集。
按照播客创业公司RadioPublic创始人的观点,从播客正式出现至今,已经涌现过三次激动人心的“浪潮”:
第一次发生在2004-2006年。
iTunes首先集成了播客这一形态内容,而另一个在当年相对知名的“播客产品”Odeo则由Ev Williams等人创立并运营。
Odeo是一个基于RSS的音频和视频的目录及搜索网站,在移动互联网尚未普及的年代曾收获一大批拥趸。但没过多久它被放弃,Ev Williams等转头做了一个日后影响世界的社交产品——Twitter。
第二波浪潮发生在2008年前后。
iPhone一经推出大受欢迎,基于这个新兴硬件平台的应用生态也开始蓬勃发展,Stitcher、Public Radio Player等产品应运而生。
第三波则兴起于2014年。
这一次,不仅主流广播平台(如美国的NPR等)涉足播客,众多互联网巨头和创业公司也纷纷加入战局。
一时间,产品数量激增,而伴随着新产品的出现,海量受众和内容也纷至沓来。 如今,正如我们所看到的,全球大型科技公司、社交媒体和热门创业公司都在押注音频。
以北美为例,苹果、亚马逊和谷歌都拥有自己的语音助手;社交巨头Facebook和Twitter开始音频内容的尝试,后者在一年多前推出了音频推文,眼下正在测试新的Spaces功能以允许用户实时对话;海外最大流媒体音乐公司Spotify过去两年也花了近十亿美元收购播客公司、洽谈播客版权,从而开始新领域的扩张。
更不必说前阵子引爆圈层的新兴音频社交产品Clubhouse,数月之间带来千万级别的下载量和全球用户,一码难求的场面堪称火爆。
类似情况也正在国内发生:语音助手的赛道早已涌入小米、华为以及一系列互联网巨头,而播客的持续兴起也引发大公司的兴趣。已经有不少媒体急着将2021年定义为“中文播客元年”。
如果非要总结,从市场的角度来看,这些现象的背后至少存在两个重要原因:其一,视频(尤其是短视频)行业在过去两年已经太过拥挤,市场格局已定,大家开始寻找新的机会;其二,声音所代表的连接感、亲密感、陪伴感,区别于其他媒介类型,有望深挖出不小的潜力。
接下来的问题是,为何是当下这个时间点音频被屡屡提及?它自身是否已经做好准备?
02
音频准备好了吗?
关于上面说的问题,有至少三个背景需要理解。
背景一:(基于声音的)技术创新已经成熟,足够消费者友好。
包括自然语言处理(NLP)、语音识别和语音转文本等技术正达到临界点。比如,自动语音识别准确率早已超过95%。而得益于语音识别工具,它们使得索引音频内容成为可能。所以,准确性与改进的等待时间相结合,可以实现几乎实时的语音识别和转录,于是音频的搜索、个性化推荐和货币化变得更加容易。
背景二:(基于声音的)新硬件平台正在崛起,消费者规模达到一定量级。
以美国为例,从数据上看,美国家庭有超过5亿台设备可以通过语音直接控制,包括联网汽车、智能音箱和AirPods等,这些设备的语音接口已经成为主流。谷歌甚至报告说,全球27%的在线用户都开始在移动设备上使用语音搜索。
更不必说,智能音箱革命带来了通过语音进行人机互动、交流的机会。这些设备是某种意义上的“永远在线”,这意味着它们可能成为一种新的渠道,而这种和用户接触的新渠道有机会被新一代创业公司利用。
背景三:(基于声音的)新互动方式正在固化,消费者习惯逐渐形成。
音频交互模式代表着继PC、移动互联网之后的一股新浪潮,它有潜力成为第三次主要硬件平台和UI的转变(PC—手机—广义语音设备)。
当前消费者对音频的熟悉度和接受度已经大大提高,一个例证就是用户对Siri、Alexa等越来越习惯和依赖。许多人相信,过去十年,手机软件是现实世界的远程遥控器;未来十年,语音也许会发挥类似作用。
声音这一媒介的繁荣,不仅意味着诸如Siri、Alexa之类的语音助手更加易用,而且还为新的社交行为打开了大门(2021年初Clubhouse的火爆便是例子)。
03
播客未来会走向何方?
但是我们又会发现,过去互联网及其背后的技术进步,屡次推动了媒体的转型,于是才有了图文、视频消费平台和方式的迅速变化。而在这个过程中,播客自身的变化又极其缓慢。
我曾指出其原因:
其一,音频很难通过速读抓人眼球,唯有靠内容创作者自身影响力来吸引少部分黏性够强的“观众”消费,对社群有较强依赖;
其二,很少有人“专注”消费音频,多数时候会同时干点其他事,比如运动、开车、做家务,这种场景极不方便即时分享转发。
这或许可以理解为播客和听众之间天然存在的种种摩擦。但转念一想,在这个各类信息都爆炸式增长的年代,存在这样一些在可用性、可发现性和可衡量性上存在摩擦的产品形态,不一定是件坏事。
那么,面向未来,“声音”这个大赛道可能孕育哪些有价值的产品和公司?
知名硅谷投资人Gaby Goldberg认为,新的媒介形态必然会带来新的内容平台,对这类平台而言,创作者和消费者是最宝贵的财富。
正因如此,声音赛道和音频创作相关的基础设施是第一位的。
一个颠扑不破的道理是:在淘金热期间,试着向人们出售铁锹。
在音频领域,怎样的公司能够充当基础设施的功能?也许可以通过横向对比其他内容类型(图片、视频)来思考这个问题。
例如,Canva和Instagram等使照片创作、共享更为主流,而YouTube和TikTok等则使视频更加深入人心。此外,能够帮助扩大音频创作者渠道的工具也属于此类。比如Spotify对Anchor的战略收购,这意味着能够创建和分发播客的工具被拥有2亿用户的Spotify社区接纳。
第二类有想象空间的产品,则是工作场景下的声音传递/共享工具。直到目前,互联网语音技术才开始逐步渗透到工作场景。这主要是因为疫情之下人们的工作和生活变得相对孤独,所以开放办公室和远程工作都偏好远程音频、视频解决方案。
随着工作中的语音体验变得越来越普遍,如果异步音频领域有新的创新,也许会是更奇妙的感受。
那么,音频的未来会是什么样?
显然,单一的技术和媒介不会单独出现,但它可以赋予一些过去行为以新的体验。比如,社交/社区+音频可能会是一种重要趋势。在此前投出过Skype、Facebook、Instagram、Twitter等知名社交平台的硅谷风投A16Z来看,要尝试推演社交+音频的去向,社交+视频提供了一个很好的参考作用。
YouTube是第一代互联网视频的头部产品,但是在它成立之后的16年(2005-2021),众多挑战者也纷纷有自己的创新。
如今,视频这种媒介已经变得异常丰富,以海外为例,YouTube试水短视频,Zoom 主导视频会议,Snapchat推出Stories,Twitch做游戏直播。它们都是同一种媒介下的不同变体。
除了以上所列出的独立视频产品,“视频”还被当作一种嵌入式功能添加进其他产品:比如远程协作工具、社交软件等等。
实际上,“视频”不仅仅指媒介本身。由谁制作视频?如何交付?什么时候可以看到?如何发送?为什么发送?观众会如何反馈?这些问题都很重要,而且这比“视频软件”这个笼统的术语要清晰得多。
从用户体验的角度看,音频在某些方面的交互与视频类似,在某些方面又完全不同。
相似点在于:像视频一样,音频可以提供用户享受数小时的悠闲时间。明星、名人的视频很有趣,聆听他们的声音也很有意思。此外,使用手机来创建音频内容也很熟悉且容易。
所以,社交+音频将如何创新?可能有两个大的主题:
其一,内容形式的创新
一方面,我们已经看到非常简短的、易于创建的图文和视频内容有多受欢迎,比如Twitter和Snapchat Stories。另一方面,WordPress之类的博客平台,Substack之类的新创作平台也推动着长篇写作的发展,YouTube、Netflix等推动着长视频的发展。
那么,长内容和短内容也都可能在音频平台上有所作为。
实时语音通信是音频短内容最易实现的方式,但会显得混乱。如果效果过于粗糙,可能就没那么有意思。这是社交+音频直接对标Twitter的产物。
在此基础上有了Clubhouse,它比上面讲的这个粗糙方式更精致也更好玩,让人与人之间更具流动性。但可能还有其他方法:比如是否可以进一步激发有意义的异步互动?是否可以专注于某个特定的创作者领域(比如脱口秀、新闻时事、体育、商业等等)做出垂直社区?
其二,业务模型的演进
近年来,在线内容的商业模式一直在发展,国外的Substack、Patreon等,国内的微信公众号、小红书、知乎等,都在为创作者提供更多的方法,使他们可以通过直接交易而不仅仅是广告完成商业化。
这意味着:在广告驱动的世界中,创作者通常没有得到其粉丝/受众的支持。创作者的粉丝其实愿意付出更多。
音频可能会出现相同趋势。以播客为例,自身广告业务规模一直较小(不到10亿美元),广告投放平台和基础技术没有大的改进,广告主无法很好地测量和跟踪ROI。因此,创作者会很自然地尝试直接向受众收费。比如,提供免费基础服务,同时需要付费购买高级/特殊产品。
04
声音的未来?
现代传播学理论奠基者麦克卢汉曾对媒介有过这样一个分类:不同形式的媒介在以自己的方式调动我们的感知,进而影响我们对信息的理解和判断。按照传递信息清晰程度的不同,媒介有冷、热之分。
一种解释是:冷媒介是指它传达的信息量少而模糊,在理解时需要动员多种感官的配合和丰富的想象力。因此,如电话属于冷媒介,因为清晰度低,它们要求受众用多种感官去感受,并且需要丰富的联想和参与,为媒介也为受众自己填补其中缺失的部分。而热媒介与之正好相反。
学界关于冷热媒介的讨论一直未曾停止,冷热媒介也并非衡量一种媒介受欢迎程度、成功与否的一尘不变的标准。但它带来的一个启示是:不同媒介能够引起人的心理和行为反应不尽相同,用今天的话说,其带来的“用户体验”差别甚大。
那么,回到我们最初的问题:比起视频营造出来的丰富体验,声音自身的“劣势”能否被突破,为人们创造更加独特和丰富的体验?以及,这需要通过怎样的设计理念、技术手段来实现?
或许不久之后我们就将得到答案。
----------------- 往期回顾 -----------------