LSP,强得离谱!

Jack Cui

共 1592字,需浏览 4分钟

 · 2021-10-09

大家好,我是 Jack。

LSP ,全称是 Live Speech Portraits,实时肖像演讲,简称 LSP。

想歪的,跟我一起面壁。

这个 LSP 可不简单,是一个比较新的算法。

功能是,根据声音,驱动人的头像说话,满足实时性要求。

我们直接看效果吧。

女生版:

男生版:

左下角是说话的人,上面是被驱动说话的画面。

虽然画面有时,看起来略显生硬,不过已经进步很多了。

再结合上两天发过的,AI 声音模仿算法。

危!我用python克隆了女朋友的声音!

声音模仿算法 + LSP 算法。技术再发展发展,着实需要当心了。

我能做的就是,做好科普,让大家都了解这些新技术。

LSP

算法原理

LSP 由南京大学 Yuanxun Lu 等人发表。

LSP 算法的实现整体分为四个阶段:

  • Deep Speech Eepresentation Extraction

采用深度神经网络,提取音频特征和流形投影,将这些特征投射到目标人的语音空间。

  • Audio to Mouth-related Motion

根据音频特征中学习面部的运动,用的是 LSTM 和 MLP。

  • Probabilistic Head Motion Synthesis

根据音频特征,预测头部姿势,上半身的运动。

  • Photorealistic Image Synthesis

根据前几个阶段的结果,生成条件特征图,然后使用 Image to Image 算法进行驱动,生成真实的面部细节,包括皱纹、牙齿等。

更详细的算法原理,可以直接看论文:

https://yuanxunlu.github.io/projects/LiveSpeechPortraits/resources/SIGGRAPH_Asia_2021__Live_Speech_Portraits__Real_Time_Photorealistic_Talking_Head_Animation.pdf

算法测试

LSP 算法已经开源,项目地址:

https://github.com/YuanxunLu/LiveSpeechPortraits

LSP 的开发环境配置起来也不麻烦,安装个 ffmpeg,其它第三方库按照 requirements.txt 安装即可。

权重文件放在了 Google 云盘,2G 左右的文件,考虑到很多小伙伴下载不方便。

我帮大家下载好了,公众号后台回复「lsp」即可获取。

将下载好的内容,拷贝到项目的 data 目录下即可。

运行如下指令:

python demo.py --id May --driving_audio ./data/Input/00083.wav --device cuda

根据指定的音频文件,进行驱动,我们可以替换这个音频。

生成的结果放在 results 目录下。

最后

感兴趣的小伙伴可以试试这个算法。

哦,对了,说个题外话,最近看不少读者在学 Python,所以出了一期视频。

B 站视频已发,我花费了大量精力整理的 Python 学习路线,全面的知识点,包含每个阶段的学习目标和学习资料,一些我看过的视频、书籍、网站、文档的推荐。

Python 学习路线一条龙,自学编程不迷茫,有需要的可以去看下:

https://www.bilibili.com/video/BV1Xf4y1j7Np

好了,就说这么多吧,我是 Jack,我们下期见!

·················END·················

推荐阅读

•   危!我用python克隆了女朋友的声音!•   好家伙,又火几个。。•   我,从高考到程序员的成长之路

浏览 63
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报