什么是音色？-技术圈

要问最近最火的节目是什么？

《浪姐》绝对可以冲击C位。

要问最近最火的剧是哪部？

有全中国小学生最近都怕的张东升老师那部前三甲无疑。

要问最近最火的歌是哪首？

《Mojito》或许是唯一的答案。

这首极具拉丁风格的歌让周董再一次回答了“谁是周杰伦”的问题。

## --今天的主题不是音色吗？

## --稍等稍等~

笔者最近也去参加了一场周董歌曲专场演奏会，台上老师从周董的第一张专辑的第一首《可爱女人》，唱到最近大热的《Mojito》，讲述着他对音乐的理解和对周董的欣赏：

“听歌的人可以有自己不同的喜好，从事音乐的人还是需要追求进步的，周杰伦则是那个推动了华语乐坛进步了一点的人。”

“周杰伦的慢歌负责他音乐的广度，快歌则负责深度，从而很难得的实现了专业性和流行度的兼得，让专业人士和普通听众都很喜欢他，他也以这样的方式，潜移默化的提高了大众的音乐欣赏水平。”

偶尔也让人以为误入喜剧现场，

“小时候家长对小孩说：不要学周杰伦，话都说不清；现在家长：你看看人家周杰伦！。”

多说无益，还是直接附上视频：

演唱：李锐涵（可在QQ音乐或网易云音乐搜索“李锐涵” ）

看完视频，不知道大家有没有注意到视频中，麦克风的位置离演唱老师的有点远，好像没有使用麦克风进行扩音，为什么麦克风被弃用了呢？这是因为他觉得扩音系统改变了他的音色。

## --终于生硬的切回了今天的主题。。。

## --没有办法，那段视频实在是太棒，还是要想办法植入一下~

初中物理课本中有关声音的章节中有提到，声音由物体的振动产生，一般可以用三个属性去描述，响度（loudness），音调（pitch）和音色（timbre）。

响度：为人耳对声音强弱的主观感受，同声音振动的幅度（声压）相关，声音振动的幅度越大，声音越响。

音调：为人耳对声音高低的主观感受，同声音振动的频率相关，频率越大，音调越高，声音听起来越清脆，反之频率越小，音调越低，声音听起来越低沉。

今天要讲的音色是什么呢? 音色，为声音的品质，英文为timbre（千万注意不是timber），也被写成tone color或者tone quality。

NOT ME !!!

先来看看美国声学协会（ASA）给出的定义："that attribute of auditory sensation which enables a listener to judge that two nonidentical sounds, similarly presented and having the same loudness and pitch, are dissimilar"

可简译为：人们用于区分两个具有相同响度和音调声音的特性。

譬如，同一个曲子，人们很容易区分使用钢琴还是小提琴演奏的，这就是因为钢琴和小提琴的音色不一样；同一首歌，也很容易区分是自己爱豆的原唱还是音乐达人的翻唱，这也是因为两个人的音色不一样。

再仔细看看上面的定义，真的是一个偷懒的定义，看完可能对音色的概念还是有点模糊，没有讲清楚音色到底是什么。以至于有学者吐槽音色是： "...the psychoacoustician's multidimensional waste-basket category for everything that cannot be labeled pitch or loudness."

简译：一段声音中，除了音高和响度的其他特征都是音色。。。

心理声学学者表示心里苦，其它的特征参数实在是太多，搞不清楚哇，那就打包叫音色了。。。

在影响音色的众多物理特征参数中，最重要的两个是频谱（frequency spectrum）和包络（envelope）。

什么是频谱？

频谱：长笛 C4

上图就是长笛发出C4音时的频谱图，横轴为频率，纵轴为幅值，最左边的曲线尖峰就是C4的主音 $f_0$ ，理想情况下想要发出纯粹精准的C4音，频谱图应该只有这一个尖峰，然而实际上，由于长笛的结构和特有的发声原理原因，它很难发出完全的纯音，体现在频谱图上就是除了在主音 $f_0$ 位置处的尖峰外，往右在 $2f_0$ （左数第二个尖峰）、 $3f_0$ （左数第三个尖峰）……位置处出现了多个频率值同主音频率成倍数关系的尖峰，这些尖峰统称为主音的谐波分量，而正是这些谐波分量的位置、大小和分布等决定了不同乐器发出同一个音时的音色，

下两图分别是萨克斯和单簧管发C4音时的频谱图。

频谱：萨克斯 C4

频谱：单簧管 C4

可以看出，虽然发的是同一个音，但是它们频谱图上的谐波分量的大小、分布都是不一样的，正是这些区别让我们能够听出是什么乐器发出声音。

下面视频给出了不同管乐器（乐器依次为：钢琴，大键琴(Harpsichord)，古典吉他，印度西塔琴 (Sitar)，中提琴 (Viola)，大提琴 (Cello)，上低音萨克斯 (Baritone saxophone)，低音管 (Bassoon)，日本尺八 (Shakuhachi)，手风琴 (Accordion)）弹奏同一个音（B2）时的音频和对应的随时间变化频谱图，观看视频，可以感受一下音色和频谱（谐波分量）之间的关系。

视频来源：http://whatmusicreallyis.com/

音色同频谱（谐波分量）的关系很大，那同一个乐器，如果使用某种方式改变它的谐波分量，那是不是意味着它的音色也是可以变化的？

答案是肯定的。

譬如长笛用不同的力道去吹，同一个音听起来也会有些不一样。

下面三张图分别是长笛很弱、中弱和强吹时C4的频谱，可以观察到谐波分量的不同，每张图后也附上了对应的音频，可点击感受一下区别。

频谱：长笛很弱（pianissimo）

频谱：长笛中弱（mezzopiano）

频谱：长笛强（forte）

网上各种厉害声优们一人分饰几角也是差不多的道理。

在之前的录音里，为什么我们的声音这么奇(nan)怪(ting)？一文中，其实也就是我们的音色被改变的结果。

除了频谱，还有一个很重要的特征参数就是“包络”（envelope）

什么是包络？

下图中的红线就是一段声音信号的包络，横轴为时间，纵轴为幅值，包络描述的是声音随时间的变化。

最常见的包络模型就是ASDR，四个字母对应的就是模型里四个主要参数（Attack、Decay、Sustain、Release）的首字母：

ASDR包络模型

起音（Attack）:声音从开始发出到达到最大音量所需的时间。

衰减（Decay）:声音达到最大音量后衰减至保持音量所需的时间。

保持（Sustain）:声音衰减后保持音量的大小。

释音（Release）:保持结束后，声音从保持音量降到零所需的时间。

四个参数不一样，相同的音听起来也会不一样，第二是视频中，视频底部给出的就是相应的包络。

以上讲述了两个决定音色的特征参数：频谱和包络，一个对应频域，一个对应时域。对音色的理解和研究其实就是寻找更多特征参数以及子特征参数的过程，这个世界上的声音真的是千变万化，想要找出核心的（子）特征参数并不容易，时下火热的人工智能也正在被用于这方面的工作。2018年有学者在Nature上发表了人类对于各种音色的快速识别能力的文章[1]，只能感叹人工智能想要达到“人智能”还有很长的路要走。

参考

1 Piazza, E.A., Theunissen, F.E., Wessel, D. et al. Rapid Adaptation to the Timbre of Natural Sounds. Sci Rep 8, 13826 (2018).

2 https://newt.phys.unsw.edu.au/music/

推荐阅读：