照片换脸+语音合成+声音驱动嘴型=…-技术圈

AIGC，全名“AI generated content”，翻译过来就是人工智能生成内容，又称生成式AI。

最近火爆了，于是手痒痒折腾一把。

先是训练了一个自己的声音模型，结合GPT助理「 https://t.kainy.cn/GPT/ 」生成的端午诗歌，做成一个 “端午节为你读诗” 的小应用「 https://t.kainy.cn/TTS/ 」

这是基于通用声学模型微调而来的个人语音模型，对我的声学特征进行模拟，可以将所输入的文字内容比如“风浪越大鱼越贵” 以我的发音方式读出来。

      五月初五端阳至，蒲叶飘香引游子。      携手同赏龙舟赛，喜庆佳节笑语融。
      艾蒿遍地挂香袋，古调新声共欢颂。
      祈福家国和平稳，愿你节日快乐逢。

           疫情危，人心冷，防控之时疫情防；      端午到，良时节，吴越风光人欢畅。
      赛龙舟，饮雄黄，五色线带彩云飘。
      粽香味，趣胜糕，唯愿疫情快过去。

（音频上传还要等待审核，有点麻烦，感兴趣可以长按访问 https://

t.kainy.cn/TTS/

进去试试其他文案，看生成的声音和我像不像～）

关于合成速度，因为跑模型需要大量运算资源，出于成本考量，合成接口此刻正“吭呲吭哧”运行在我从二手市场淘的、别人家祖传的、第三代因特尔处理器主机上。

简言之就是算力不够，合成一段300字以内的语音通常需要10-20秒。

为了更好的使用体验（以及出于对CPU老人家的人道主义考虑）对生成过的音频做了一层缓存。如果你合成的音频几秒就返回了，说明这个音频来自别人生成过的缓存文件

声音和文案都有了。

翻出之前司庆活动合成的职业照，与音频文件一并上传到 HeyGen「 https://t.kainy.cn/HeyGen/ 通过此链接注册，免费领取1分钟视频合成体验时长」，通过他们的声音驱动嘴型服务，生成了如下测试视频…

嗯，貌似还不错。

就是这姿势… 为什么看起来如此成功先凑合吧

如此帅比而又傲娇的造型，让人不禁想看看卖货的效果，找些素材试试

由于 HeyGen 给的体验时长有限，视频比较简短。怎么样，这样的卖货视频你会买账嘛？