抖音带火了连麦/PK,也带火了RTC行业的军备竞赛

共 3359字,需浏览 7分钟

 ·

2022-11-04 02:34


文 | 阑夕

从很多年前开始,电子邮箱在中文互联网的最大作用就是用来收取注册邮件,而移动互联网时代以手机号码为唯一帐号的做法,则把电子邮箱的功能性价值也扫入了历史深处。

事实上,如果排除职场需要,中国用户在绝大多数应用场景里是没有收发邮件这种需求的,作为数字生态而言,这或许构成了国内和海外的最大差异,并引发了不同路径的产品体验。

中老年网民可能还记得,QQ曾在古早时代推出过一项功能,当你向好友发消息而没有及时收到回复时,你的视频请求可以强制对方的客户端弹出会话窗口,无论他是不是在全屏打游戏。

无论多少次的好友决裂都因弹窗而起,这都充分体现了由即时通讯——或者说网络聊天——开启的中文互联网世界对于异步对话的低容忍度,就像是马的屁股决定了现代铁轨宽度的故事那样,自电子邮箱没能在中国成为互联网基础设施开始,一切都变得不同起来。

「我下线了」这句台词,也早已作古。

· · ·

早些时候,字节跳动旗下的火山引擎宣布,它的RTC服务(实时音视频)已经支持单房间超过一千人同时连麦聊天。

这是一个乍看之下有点懵逼的消息,甚至让人怀疑技能树的方向是不是点错了——如果真有一千个人同时说话,谁又能听得到谁?

然而,如果脱离具体信息沟通的思维定势,便不难想象千人连麦的使用场景:在演唱会现场,成千上万的歌迷和偶像齐声共唱一首老歌,这种感染力可以瞬间击穿所有人的内心。


换句话说,当越来越多的娱乐活动都数字化了——不光是线上的演唱会,还有一起看比赛、同屏看电影等等——在内容的实时共享之后,就轮到了感官的实时共享。

所以在过去几年里,RTC作为直播场景的一项解决方案,从发展速度到竞争烈度,都在与日俱增,技术大厂前仆后继的躬身入局,无疑都是在押注那个正在变成现实的近景未来:完全摆脱肉体的虚拟世界或许还有待时日,而在那之前的这一代用户,依然需要属于他们的新型数字社交手段。

实时的交换声音、画面乃至情绪,就是正在成为主流的生活方式。

就像人类学家项飙一直在强调「附近的消失」,这个概念越是引起共鸣,就越是说明它是一种回不去的念想,是比特对于原子的怀旧,是信息对于距离的取代。

如果乐观来看,没有附近实际上意味着处处皆可是附近,通过产品的连接,无论相隔千山万水,任何人都可以邻里相伴,连上传和下载都成为了过去时态,一切的喜怒哀乐,都要无延迟的相互传递,很难人有能够抛弃这种「数字居民」的共同身份。

而历史的发展就是如此,它和你是否喜欢、是否接受的关系微乎其微,一切偶发事件的背后,都具备着经年累月的必然性。

· · ·

火山引擎的业务之于字节跳动,很像当年的AWS业务之于亚马逊。而RTC则是火山引擎最具代表性的产品之一。

AWS的历史,最早可以追溯到2002年,杰夫·贝佐斯牵头创建了EC2——弹性计算云,用于解决公司不同业务线之间「重复造轮子」的效率损耗。

EC2在亚马逊内部大获成功并尝试对外销售,没想到还没有推广到西海岸,所有的服务器就都被租满了。

AWS的发展路径验证了一条基本逻辑:当一家公司解决了自己的问题,那么意味着它也有能力解决其他公司可能遇到的相同问题,而这个能力的输出,是能够帮助外部客户提升业务价值的。


火山引擎入场RTC的起因,也是基于字节跳动的内部所要,包括抖音的连麦/PK、飞书的多人会议、游戏的语音开黑,都对实时音视频有着极大的需求,为了提升用户体验,——用户的满意度又直接决定了终端产品的业绩增长——再由火山引擎这种中台部门提供统一的技术支持。

最终,当火山引擎的RTC已经在过亿级DAU的产品上经受了完整检验,它所沉淀下来的画质提升、架构设计、抗弱网、机型适配等技术成果,都值得打包成为一项标准化的解决方案,而这一套「抖音同款」的RTC服务可以配置到任何有意解决相同问题的外部产品里。

事实上,火山引擎也在开放RTC能力给外部的企业和开发者,在这个过程里,「抖音同款」成为了火山引擎RTC的最大竞争力之一,覆盖了如此庞大的用户群体、不同的复杂网络环境、各种可能存在的终端机型。很难想象有哪款音视频产品会遇到抖音不曾遇到过的问题,所以当火山引擎RTC连抖音都能服务顺畅,别的产品就更不在话下了,也可以让更多产品获得「抖音同款」的用户体验。

这是中国RTC行业的顶配标准。

· · ·

1943年,IBM的创始人托马斯·沃森斩钉截铁的表示:「全球至多只需要5台计算机就足够了。」

甚至连比尔·盖茨也说过,没必要为个人电脑生产超过640KB的内存,因为根本用不上。

而今,哪怕是最落后的手机芯片,它的运算能力也超过了美国当初用来执行登月计划的大型电脑,再简单不过的消消乐手游,代码规模都要比操控第一艘火箭升空要更加丰富。

所以才有段子说,当你打开手机寻找附近的便利店时,实际上太空里有17颗人造卫星正在为你服务。科技行业的第一推动力,永远来自消费市场的巨大产值,因为用户需要,所以才有技术进步、就业增长、经济繁荣等一连串的连锁效应。

就像抖音直播的画质呈现在业内一直评价颇高,在它背后,有着火山引擎RTC「全链路」画质的优化方案,从第一秒的视频采集开始,到编解码、前后处理,再到对机型、网络和场景的灵活适配,出现在用户手机上的画面,早已经过了「千锤百炼」。

比如用户的上传带宽若是不足,视频分辨率便得不到保障,画面卡顿也难以避免,针对这种硬件瓶颈,火山引擎为抖音提供了AI画质增强能力,通过AI「脑补」用户缺失的图像并填补进去,在理想情况下甚至可以将360P的视频升级成720P,如同黑魔法般的不可思议。

尽管这种超分辨率技术本身并不罕见,但它的难点在于如何在保证效果的同时压缩算法模型、降低计算量以尽可能的覆盖到那些性能有限的中低端手机,这个过程的复杂程度足以让几百名工程师日以继夜的敲打代码,直至不断迭代到产品更新里。


火山引擎也是业内首家在视频采集时进行AE优化的RTC厂商,大多数用户在开启视频时并未处在完美的光线环境里,如果是逆光或是侧光场景,人脸画质会急剧降低,所以火山引擎复用了抖音、轻颜相机同款视频采集技术架构,实时的计算人脸测光结果并加以算法平衡曝光,确保用户的容貌始终清晰生动。

包括美颜这种可能是东亚市场特别注重的刚需,火山引擎RTC也将火山引擎智能美化特效整合到方案里,在连麦过程里,用户不但可以保持美颜特效,还能随时给自己添加虚拟的动漫形象,新形象的嘴型和动作都和真人实时维持一致。

但这不仅是停留在好玩层面,整体方案的整合为资源消耗带来了优化,节省了15%的性能,同时覆盖更广机型,让中低端机也可以使用流畅稳定的美颜

而技术也被证明可以直接拉动用户在产品端的使用回报:从字节内部的A/B测试来看,火山引擎RTC的整合优化能为主播的礼物UV和被观看PV平均带来5%以上的增长,这种来自数据的正向反馈,就是对所谓「追求极致用户体验」的最佳致敬。

· · ·

火山引擎RTC的打磨不仅在画质层面,音频也要更清晰流畅,无论是多人连麦,还是新场景,「让声音更动听」始终是研发的核心目标之一。

比如嘈杂环境产生的背景音,专业主播可能不会遇到这个问题,但在一起KTV或是一起看电影等场景里,用户本身并不会特意准备专注连麦的室内环境,而他们的沟通品质则取决于App在多大程度上可以消除掉那些棘手的回声和噪音,只保留下最清晰的用户语音。


所以火山引擎RTC在自研回声消除(AEC)的基础上,结合了深度学习抑制残留回声方法,让AI算法去对采集进来的所有声音进行分层,分辨哪些是人声、哪些是环境音,就像一层滤网那样,拦截掉影响人声表达的杂质,尤其是在K歌场景下,这样的方法策略就显得尤为重要,保证用户外放K歌,依然享有高品质音质体验。

在某种程度上,技术的进步确实会促成消费者在容忍度层面的普遍降低,就像从前顶着高PING玩回合制网游的那一代用户,也不太能够理解当代网民为什么会因为MOBA比赛里的偶尔跳PING而大发雷霆。

是的,曾经信件很慢,翻山越岭要一个多月的时间,而在如今,一张图片的加载转圈,一次视频的卡顿模糊,就足以让人烦躁不安,这是「数字居民」们的天然烦恼,也是互联网公司在构建基础设施时所担当的使命和机遇。

RTC也是如此,谁的解决方案最好,谁就能够成为中国互联网下一代社交场景的技术供应商,而这也是整个数字产业的深化变革方向,流量只能赢得竞争,技术却能带来成功。

浏览 29
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报