音视频技术入门——音频处理-技术圈

我们耳朵听到的声音究竟是什么？

为什么声音的空间感是如何实现的？

多人语音通话中出现的切字、漏字，是因为什么，要如何解决呢？

变声功能的原理是什么？

本篇文章会涉及到音频处理的相关内容，包括

涉及的知识点：

（1）物理声音3要素。

（2）音频的量化过程。

（3）采样率、声道数、位深。

（4）重采样。

（5）音频码率、音频帧。

（6）音频压缩原理(时域掩蔽、频域掩蔽)。

（7）常用音频编码格式，AAC系列、Opus。

（8）回声消除、噪声抑制、音量增益。

（9）变声、混响、立体声。

关于「音视频技术小白科普营」我们想用浅显易懂的语言，将一些基础知识，体系化的介绍给音视频技术初学者或者想要了解音视频技术任何人。感谢阅读，如果您想了解更多关于音视频相关，欢迎关注ZEGO即构官网。

一、声音三要素是人耳对声音的主观感受，第一个是音调（Pitch），

就是我们对声音高低的感觉，它主要与声波的频率有关，声波的频率高，则音调也高；

第二个是音量，也叫响度，就是声音强弱，单位是分贝（dB），像你的分贝就很高，挺吵的，它和声波振动的幅度有关，一般说来，声波振动幅度越大响度也越大；第三个是音色，可以理解为声音的特色，就是我们人耳对各种频率、各种强度的声波的综合反应，它取决于材质，比如说每个人不用的声音就是你的音色。

二、音频的量化过程

信号有数字信号和模拟信号，就音频的信号来说，以电话举例。

“数字电话跟模拟电话最大的不同，就是线路里传递的是数字信号。这就涉及到要将声音数字化，这个过程就叫做量化过程，也就是模拟音频的数字化过程。

这个过程分三个步骤：

1.采样：在时间轴上对信号数字化。

采样频率越高（高／低），越能真实地反映音频信号随时间的变化。采样频率越高声音的还原就越真实越自然。如果采样率越大，那么想还原信号的真实性就越容易，当采样频率设置不合理时，即采样频率低于2倍的信号频率时，会导致原本的高频信号被采样成低频信号，会造成混叠。

2.量化：在幅度轴上对信号数字化。

量化位数越多（多／少），越能细化音频信号的幅度变化，这个也叫做位深或者位宽。

3.编码：就是按一定格式记录采样和量化后的数据。

常见的有损编码有AAC-HE、AAC-LC、OPUS不同的编码有不同的适用场景，这个要在线路搭通后，看看什么样的编码合适。

4.声道数：

音频的采集和播放，是可以同时从多个音频源采集声音，并分别输出到不同的扬声器，声道数为 1 和 2 分别称为单声道和双声道。

5.音频码率、音频帧

为了更好的跟传输线路匹配，编码之后的数据会用音频码率的方式来描述他所需要的最低的传输速度，这就是码率。

码率是指，1s内编码/传输的音频数据量。例如采样率44.1k，双声道，16bit位深，PCM 数据推流的码率为：44.1 * 1000 * 16 * 2 = 1411200 bits / s = 1411.2 kbit / s = 1.411 Mbit/s

音频数据是流式的，本身没有明确的“帧”的概念，在实际的应用中，为了音频算法处理/传输的方便，一般约定俗成取 2.5ms~60ms 为单位的数据量为一帧音频.

转采样就是，将具有某一采样率的离散样本流，更改为具有另一采样率的流的过程。

三、音频压缩

压缩的编码方式有两种：AAC和OPUS，数字电话默认用AAC-LC编码，码率高、音质好，适合音乐播放场景，推荐你使用Opus，码率低、延迟低，更适合通话场景。

说明：（Opus适合通话场景，64k码率就够了。但AAC-LC，一般要128k码率，适合音乐场景。

音频的压缩原理：

声音信号有一个掩蔽效应，就是一个频率的声音能量小于某个阈值之后，人耳就会听不到，这个阈值称为最小可闻阈。

当有另外能量较大的声音出现的时候，该声音频率附近的阈值会提高很多，即所谓的频域掩蔽效应。

如果强音信号和弱音信号同时出现，也会发生掩蔽效应，这个就叫时域掩蔽效应。）

四、3A&混响

3A是指：回声消除 (AEC) 、噪声抑制(ANS) 、⾃动增益控制（AGC）

AEC是利用滤波器，把噪声过滤掉，达到回声消除的过程。

我们将声音的时域信号转成频域信号进行分析，从频域的角度看，滤波器会“砍掉”一些不需要的频率，达到“过滤”的效果。

当两人以上一起讲话时，出现回声，就会出现漏尾和切字，是由于有多方同时说话，采集进来的语音信号就包含了远端的回声和近端的语音，两者混合在一起。

双讲情形下的回声消除就十分困难：一方面要保护近端的语音信号不被损伤，另外一方面还要尽量地把回声消除干净。

但是我们即构的AEC通过线性处理，根据参考信号与远端回声信号的相关性，尽量将远端回声信号进行了消除；又用非线性处理，根据残留量进行残留回声抑制和剪切处理。

当环境噪音太大时，会用到ANS（噪声抑制）功能。ANS会对带噪语音进行VAD判断、噪声估计，用维纳滤波达到降噪效果！

如果还想让通话声音更大，就是AGC（自动增益控制）功能了。

变声、混响、立体声等功能！

变声就是语音变调，一段声音可以理解为多种频率正弦波的叠加。提高了主要频率，就是升调，反之则是降调。

还可以在唱歌时添加混响，混响后歌声就显得丰满、富有层次、有空间感，听众仿佛置身360度空间。

哪些步骤开业实现混响效果的：

1、通过指定延迟时间和衰减程度，以原始的声音波形为输入，产生多个延迟（模拟反弹回来的）波形；

2、把多个延迟波形和原始的波形进行叠加，产生最终有混响效果的声音波形。延迟波形的个数越多，叠加产生的声音波形就比较丰满和有层次感，混响的效果也越好。

增强声音的空间感，就需要3D立体声！

3D立体声实际就是增加了一个声音的方位感，能通过声音辨别出方位，增强了声音的空间感。算法上通过头部相关传输函数HRTF使用人耳和人脑的频率振动预知来合成3D音效。

具体来说，人的大脑分辨声源的方向是通过ITD（两耳时间延迟量差）和IAD（两耳音量大小差）。但是，ITD和IAD不能描述声源从正前方和正后方传来的区别。要解决这个问题，我们的耳廓扮演着关键的角色。声波遇到物体的时候会反弹，当不同的声源从不同的角度传来，它们肯定会在鼓膜上产生不同的频率振动。正是因为耳廓的存在，才造成了从前面和从后面传来的声音截然不同。

总结起来，通过三个主要的特征量：ITD、IAD和耳廓频率振动来合成3D音效。这三个元素就是HRTF――头部相关传输函数的参数。

在下一篇连载中，我们将详细介绍下多媒体容器与流控，科普关于流媒体的相关知识。

敬请期待！

如果您现在想了解更多关于音视频的讯息，欢迎加入我们的音视频技术分享群。我们会定期举办线上技术分享、音视频在各行业中的应用分享、技术干货等。

群是免费的，但是谢绝广告和水聊。添加即构微信号，拉您进群。
微信号zegoshouqian，添加时请备注：知乎音视频群
即构机构号将实时分享音视频领域的技术洞见以及行业讯息，与您一起探讨音视频创新的更多可能性。

欢迎提问&求关注 ( ´ ▽ ` )ﾉ
以上。