如何监控实时语音的质量-技术圈

在业界，实时音视频的 QoE（Quality of Experience）方法一直都是个重要的话题。之所以这么重要，其实是因为目前 RTE（实时互动）行业中还没有一个很好的可用于评价实时互动场景的 QoE 评价方法。

最古老的评定实时音频体验的方法，其实你我都用过，就是对着话筒大声地喊出“喂喂喂”。“喂”的个数，就代表了通话体验的高低。但是，现在我们已经完全可以通过技术手段来客观地评定实时语音的体验了。

从“喂喂喂”到 QoS、QoE

当语音通话出现时，还没有 QoS （Quality of Service）。人们只能靠“喂喂喂”的个数来判断通话质量的好坏。

后来基于网络的语音互动面对着同样的问题。QoS 在这样的背景下诞生。其目的是针对各种业务的需求特征，提供端到端的服务质量保证。QoS 的机制主要是面向运营商、网络建立的，关注的是网络性能、流量的管理等，而不是终端用户体验。

人们逐渐发现，以 QoS 为核心构建的传统评价体系，始终难以和用户的体验相匹配。于是，更加关注用户体验的 QoE（Quality of Experience）被提了出来。在此后很长一段时间里，基于 QoE 的评价体系开始逐渐发展。在通信领域，逐渐出现了若干种与 QoE 强相关的评价方法，这些评价方法可以分为主观评价方法、客观评价方法。这些方法都会通过 MoS 分来表达目前用户体验的高低的。

现有 QoE 方法的缺陷

主观评价方法

主观评价方法，是将人的主观感受映射到质量评分，受限于听者的专业性与个体差异性。在业界，音频主观测试并没有可以统一遵循的标准。虽然ITU对音频主观测试有一些建议和指引，但是每个测试都有自身的侧重点设计和执行也不尽相同。一般比较常用的做法是请足够多的人来采集有统计意义的样本，然后对测试人员做一定的听音培训。最后根据信号失真度，背景侵入度，和总体质量等方面来对音频通话打分。

所以，想得到相对准确的主观语音质量评分，往往需要大量的人力和时间，所以业内一般很少使用主观测试对通信质量进行评估。

客观评价方法

客观评价方法分为有参考评价方法和无参考评价方法。

其中，有参考评价方法能够在有参考信号（无损信号）的前提下，量化受损信号的损伤程度，并给出与主观语音质量评分接近的客观语音质量评分。在2001年，P.862标准（P.862 是 ITU 国际电信联盟标准）定义了有参考客观评价算法 PESQ，该算法主要用来评估窄带及宽带下的编解码损伤。该算法在过去的二十年中，被广泛的应用于通信质量的评定。

随着技术的发展，PESQ 的应用范围变得越来越窄，于是在2011年，P.863 标准定义了一套更全面、更准确的有参考客观评价算法 POLQA。相比PESQ，POLQA 可评估的带宽更广，对噪声信号和延时的鲁棒性更好，其语音质量评分也更接近主观的评分。

无参考的客观评价方法不需要参考信号，仅通过对输入信号本身或参数的分析即可得到一个质量评分。比较著名的无参考客观评价方法有 P.563、ANIQUE+、E-model、P.1201等。

其中，P.563 于 2004 年提出，主要面向窄带语音的质量评估；ANIQUE+于 2006 年提出，也是面向窄带语音，其评分准确度据作者称超过了有参考的评价方法 PESQ，不过 PESQ 的测量不能反应网络的延时、丢包等，并不完美适用于如今基于互联网传输的实时互动场景；E-model 于 2003 年提出，不同于上述两种方法，这是一个基于 VoIP 链路参数的损伤定量标准，不会直接基于信号域进行分析；P.1201 系列于 2012 年提出，对于音频部分，该标准也不对音频信号直接进行分析，而是基于网络状态和信号状态对通信质量进行评分。

AI 算法改善有限&实时场景难落地

近些年，也有相关使用深度学习对语音信号进行评分的论文，其拟合的输出往往是待测语音对应 PESQ或其他有参考客观评价方法的输出。但这种方法有两个明显的缺点：

一是其准确性依赖于模型算力，而在产品落地时，因为无法直接改善用户体验，非质量改进的功能的复杂度和包体积要求往往是非常高的；
二是这种方法的鲁棒性在RTE的多场景特性下会受到严格的考验，比如说带有背景音乐或特效的语聊房场景，就会给这种基于深度学习的方法带来很大的挑战。

有参考客观评价方法因为需要无损的参考语料，更多的价值是在算法、App 或场景上线前对其做质量验证，如果你的 App 或场景已经上线了，则无法对其语音互动体验进行评价。而对于产品发布后的体验评价，业内则期望无参考客观评价方法能够提供一些帮助。但是很难遗憾，受限于场景的多样性或算法的复杂度，上述无参考客观评价方法难以全面应用到 RTE 领域。

我们需要新的 QoE 评价方法

综上分析，如果我们需要一个部署在端上实时反馈通话的质量的评价方法，上述任何一种方法都是不合适的。我们需要另辟蹊径，设计一个新的评价系统，这个系统需要具备以下几个特点：

需要对多种实时互动场景下的语料（音乐/语音/混合）具有鲁棒性，不会出现明显的评估误差。
需要具备多采样率（窄带/宽带/超宽带/全带）的评估能力。
复杂度要足够低，能够在任意设备上对多人通话中对每一路的语音质量进行评估，且不引入明显性能增长。
线上的质量评分能够和线下的测试结果对齐，即同一段通话，该评估方法对当前线上发生的通话的评分，与事后用有参评价方法分析这段通话的得分，两者应该几乎一致。

当这套 QoE 评价体系满足以上特点后，便等同于让你在产品上线后都可以进行以往所做的“上线前的质量评价”，你可以随时看到当前你的用户的通话体验评分。这不仅是评价体系能力的提升，更能帮助你有的放矢地大幅提升用户体验。

基于在全球大规模商用的客观实时数据和实践总结，现已经有一套用于评价实时音频用户体验的无参考客观评价方法——声网Agora 实时音频 MoS 方法。

那么有人可能会问，相比已有的开源方法有什么不同？其中的原理是怎样的？5 月 13 日，声网Agora 音频算法工程师赵晓涵将在「Agora Talk 直播课」中介绍声网实时语音质量监控系统的进展，并和大家交流一下未来演化的方向。现在扫码就可以报名参与交流。

🎙议题：实时语音质量监控系统的过去、现在和未来

🕰直播时间：5月13日（周四）晚 8:00

👨🏻‍💻主讲人：赵晓涵声网Agora 音频算法工程师

赵晓涵，毕业于北京理工大学信息工程/通信工程专业，加入声网后先后开发过SOLOX系列编解码器和一些基于深度学习的语音信号处理项目，目前主要负责实时语音质量监控系统的算法研究和开发。

📃演讲内容简介：

随着QoE评价体系的发展，RTE行业内越来越希望能够有一套实时反映用户主观体验的评估系统，声网从去年开始了音频部分的实时质量评估方法的研究，并逐渐摸索出了整个音频链路上各个环节的异常监控方法论，本次Agora Talk旨在介绍一下声网实时语音质量监控系统的进展，并和大家交流一下未来演化的方向。

报名方式

1、扫码填写报名表单，报名成功后请注意查收报名成功邮件。

2、我们将会通过邮件给您发送活动群二维码及直播链接。

| 关于声网

声网Agora成立于2013年，是全球实时互动云行业开创者与引领者者。开发者只需简单调用API，30分钟即可在应用内构建多种实时音视频互动场景。声网Agora API 已经赋能社交直播、在线教育、游戏电竞、IoT、AR/VR、金融、保险、医疗、企业协作等10余行业，共计100多种场景。截至2020年12月31日，声网全球注册应用已超27.2万。2020年，声网实时音视频分钟数月均用量超400亿分钟。自成立以来，累计实时音视频分钟数超10,000亿分钟。

点击阅读原文，报名直播