危!我用python克隆了女朋友的声音!
共 1335字,需浏览 3分钟
·
2021-11-27 10:00
大家好,欢迎来到 Crossin的编程教室 !
今天,给大家介绍一个算法。
AI 算法 5 秒钟,就能克隆你的声音,你信吗?
听听这段音频,猜猜看是 AI 合成音,还是真人录音?
答案是:AI 合成。
这个人的原始声音在这里:
你给这个 AI 克隆声音的算法打几分?
上述两个音频,算法运行起来的效果:
MockingBird
这个算法是基于比较著名的 Real Time Voice Cloning 实现的。
MockingBird 是最近开源的中文版。
论文的名字是:
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
简单介绍下:
算法分为三个模块:encoder模块、systhesis模块、vocoder模块。
encoder模块将说话人的声音转换成人声的数字编码(speaker embedding) synthesis 模块将文本转换成梅尔频谱(mel-spectrogram) vocoder模块将梅尔频谱(mel-spectrogram)转换成(波形)waveform
具体的算法原理,大家可以看论文:
https://arxiv.org/pdf/1806.04558.pdf
项目地址:https://github.com/babysor/MockingBird
有深度学习基础的话,这个应该不难。
部署环境,分四步:
Anaconda 配置 Pytorch 开发环境 根据项目 requirements.txt 安装第三方库依赖 下载权重文件 下载训练集,这个几十G,有点大
具体的配置方法,直接看这里:
https://github.com/babysor/MockingBird/blob/main/README-CN.md
都搞定了,就可以运行代码了。
有两种模式可以启动,Web 模式和工具箱模式。
在项目根目录运行:
python web.py
即可开启 Web ,打开地址 http://localhost:8080 就能操作了。
这个界面比较简陋,建议使用工具箱模式。
python demo_toolbox.py -d <datasets_root>
datasets_root
就是下载好的数据集的地址。
剩下的,就看各位的发挥啦。Enjoy it!
如果文章对你有帮助,欢迎转发/点赞/收藏~
作者:Jack Cui
_往期文章推荐_