封面设计：Milkki

预计阅读时间：8 分钟

Intro

苹果在近日收购了一家名为 AI Music 的初创公司，该公司提供的服务正是利用人工智能技术来个性化定制音乐。

音乐人工智能这个名词听着仿佛距离我们的生活很遥远，但是实际上，它已经渗透到我们的生活当中。比如：各个公司相继推出的虚拟歌手，从初音未来到微软小冰都深受广大年轻人的喜爱；当你在电台里听到一首好听的歌曲时，你可以使用听歌识曲应用来找到这首歌曲……

初音未来[2]

以下将从音乐人工智能的概念、子课题、应用、相关期刊会议四个方面进行介绍。

概念

近年来，在音乐及计算机领域出现了音乐人工智能（Music AI）这一名词。音乐人工智能是一个相对模糊的概念，可以看作人工智能在音乐领域的垂直应用。包括音乐生成，音乐信息检索，以及所有其它涉及AI音乐相关的应用例如智能音乐分析、智能音乐教育、乐谱跟随、智能混音、音乐机器人、基于智能推荐的音乐治疗、图片视频配乐等应用。音乐人工智能属于音乐科技的一部分。[1]

子课题

早期的音乐信息检索(Music Information Retrieval, MIR)技术以符号音乐如MIDI(Musical Instrument Digital Interface)为研究对象，后续以音频信号为研究对象，研究难度急剧上升。如今MIR技术已经不仅仅指早期狭义的音乐搜索，而更广泛地包含了音乐信息处理的所有子领域。我们根据自己的理解，将MIR的几十个研究课题归纳为核心层和应用层共９个部分。核心层包含与各大音乐要素（如音高与旋律、音乐节奏、音乐和声等）及歌声信息处理相关的子领域，应用层则包含在核心层基础上更偏向应用的子领域（如音乐搜索、音乐情感计算、音乐推荐等）。[1]

音乐信息检索（MIR）的研究领域[1]

2.1 钢琴转谱

接下来将以钢琴转谱这个子课题为例进行进一步的介绍。

钢琴转谱，顾名思义就是将一段钢琴音频通过技术自动转化为MIDI等符号音乐表示，是自动音乐转谱（automatic music transcription，AMT）在钢琴这一乐器上的子任务。

“钢琴转谱”示意图

钢琴转谱可以分为单音高和多音高，当音频每一时刻都只有一个音符在发出声音就是单音高，当音频中存在多个同时发声的音符时就是多音高。

在单音高识别上，在2018年Jong Wook Kim等人提出的《CREPE: A Convolutional Representation for Pitch Estimation》是一篇影响力非常大的论文，刷新了当时的指标。该模型的输入直接采用原始音频信号片段，经过六层一维卷积层和一层全连接层，输出360维向量，其中每一维分别代表对应音高的概率。最后该模型对于音高的估计能够实现HZ级别的精度。

CREPE网页小样截图

钢琴多音高检测的里程碑是谷歌团队Google Magenta提出的《Onsets and Frames: Dual-Objective Piano Transcription》。这个模型开创性地在音高检测时加入了琴键按下时间(onset)的信息大大提高了音高检测的准确率，全方位刷新了当年的指标，甚至在note-with-offset的F1 score的指标上超过之前模型成绩的一倍，达到了50.22%。

Onsets and Frames网页小样截图

目前在多音高钢琴转谱领域的 SOTA ( state of the art，当前最优模型 ) 由字节跳动的孔秋强博士等人保持，他们在《High-resolution Piano Transcription with Pedals by Regressing Onset and Offset Times》一文中写到他们将钢琴按键在时间上的精度缩小到 1 毫秒这个量级，还对钢琴按键力度、钢琴踏板等多个信息进行了检测和标注。

应用

大多数的音乐播放软件都有的听歌识曲功能

利用副歌检测技术进行副歌标注点的标注

除了intro中提到的应用以外，近年来音乐人工智能的应用越来越广泛。

清华大学墨甲乐队。“墨甲”机器人乐队是中国首支具有中国文化特色的机器人表演团体。2019年4月27日，机器人音乐舞台剧《墨甲幻音》在清华大学上演。[3]

2022年1月，网易推出一站式AI音乐创作平台天音。用户可在“网易天音”小程序中输入祝福对象、祝福语，10秒可产出词曲编唱，还可以选择小冰框架内的何畅、陈水若、陈子渝等AI歌手进行演唱。[4]

Outro

当前相比于NLP和CV以及语音领域的快速发展，音乐人工智能仍存在较大发展空间，苹果这一举动让更多的对于这一方面感兴趣的人了解到这一领域，对于该领域的发展能够起到一定的促进作用。而在国内，这一学科得到了越来越多的重视。2019年，中央音乐学院音乐人工智能与音乐信息科技系创建。复旦大学的李伟教授预测，今明两年将是国内音乐科技从萌芽、起步、进化到加速发展的转折点，音乐家主导的从上到下的学科框架设置，以及理工科同行主导的从下到上的知识体系构建有望在中间相遇。[8]

参考文献：

[1]李伟，李子晋，高永伟，“理解数字音乐-音乐信息检索技术综述”，复旦学报（自然科学版），2018，57（3）：271-313.

[2baijiahao.baidu.com/s?id=1606162308984311497&wfr=spider&for=pc

[3]news.sina.com.cn/c/2019-04-27/doc-ihvhiewr8563419.shtml

[4]www.jiemian.com/article/7047190.html

[5]Kim J W , Salamon J , Li P , et al. Crepe: A Convolutional Representation for Pitch Estimation[C]// ICASSP 2018 - 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.

[6]Hawthorne C , Elsen E , Song J , et al. Onsets and Frames: Dual-Objective Piano Transcription[J]. 2017.

[7]Kong Q , Li B , Song X , et al. High-resolution Piano Transcription with Pedals by Regressing Onsets and Offsets Times[J]. 2020.

[8]音乐人工智能不再冷门, https://mp.weixin.qq.com/s/aMR9hBikULDnEAJr9XWaeg.

点个在看你最好看

苹果收购AI音乐公司，音乐人工智能将迎来新机遇？

概念

子课题

应用

相关期刊会议

Outro