字节跳动周一楠:抖音直播技术实践与创新
随着直播形态演进,用户对于直播的要求越来越高:更高的清晰度、更低的延迟、更少的卡顿,叠加上差异化的网络情况与硬件环境,为直播体验的技术优化带来巨大挑战。当前,想要实现用户体验提升,完成业务增长诉求,技术复杂度呈现出指数级提升。
7月8日,字节跳动火山引擎直播技术负责人周一楠在阿里云直播峰会上分享了《抖音直播技术实践与创新》主题演讲,介绍了在不同环境下,抖音直播体验优化面临的技术挑战与未来发展方向,对过往实践中的思考进行了总结。以下为整理内容:
稳定是直播的基本条件。伴随业务规模快速增长,需要承受的流量负载也在逐渐升高,当前面对的最大挑战是如何稳定服务亿万级别的直播用户。
容量的问题。直播流量持续增长,渗透率不断提升,为整体容量与局部容量都带来巨大挑战。
容灾的问题。大规模用户的背后对应着复杂的系统设计工作,除了需要完成合理的层级设计,实现高内聚、低耦合之外,还要思考如何应对特殊极端情况,如直播热点突发、局部服务故障、网络故障、DNS异常等等。
基于上述两个方面问题,在技术实践过程中,通过聚合CDN手段,统一进行CDN调度,实现规则调度、节点优选、策略引擎、质量建议、容灾建设与CDN管控。
借助聚合CDN一方面解决容量储备问题,一方面配合调度系统,面对局部问题、突发问题均可快速处理。同时,再配合端上的SDK,与聚合CDN的调度系统共同将两者实时数据采集、监控能力策略进行有效串联,保障直播稳定性。
在质量方面最大的技术挑战则是保障用户体验。
首先要考虑的是QoS指标,常规项有推拉流成功率、卡顿、画质、音质、端到端的传输延时等。下沉到二级指标,则包括首帧时间、音画同步率、耳返延时等。
当优化到一定程度后,会出现指标与指标相互制衡的关系。目前的关键问题就是如何在以上指标之间做好平衡与折衷,以实现用户体验的最优解。
在实践过程中,一切都以提升用户体验为目标:从单纯的QoS指标到QoE,再到A/B验证,都需要作为技术验收的标准。
通过采用一定规模的对照组与实验组来进行数据比较,以保证数据量级可信度,结果在过往技术迭优中取得了不错的收益。
值得注意的是,基于大量A/B验证的过程与数据,实现了体验优化的策略产品化建设沉淀:将分散的能力与用户场景进行测试与策略的适配,提供用户最匹配的直播能力组合。
随着直播流量增长,直播带宽成本在业务总成本中占有的比重越来越高。如何利用技术手段完成成本优化成为了技术价值的关键体现,直播平台需要在不损伤用户体验的情况下降低成本、在技术优化过程中解决拐点问题,明确度量ROI的手段。
基于上述问题从以下两个角度出发完成了优化:
技术优化手段。通过采用错峰调度,起播策略,高清低码,节点复用,回源优化等等技术,坚持了体验与成本兼顾。
商务考核机制。价格作为直播CDN的关键考核项同样占有一定比例,研发过程中需要重点支持数据的校准。
过程中定义了万分钟直播单价作为迭代的ROI口径,与业务侧对齐,实践中一切优化手段,都通过该指标来度量。
从前述的稳定性、用户体验、成本三个维度出发,直播技术正在不断持续迭代和升级,期望找到不同时期的最优解。
以此为指导原则,在实操环节建立了建立融合直播CDN的PK平台,涉及到服务质量、可用性、响应时效、资源储备、商务单价等多个层面。通过将聚合直播CDN放入多维度良性绩效PK模式,可以实现稳定性、体验、成本间的平衡。
不论是技术实践迭优还是策略系统升级,直播正在从静态能力转化为业务增长源源不断的驱动力,为不同场景、不同行业带来更大价值。