照片换脸+语音合成+声音驱动嘴型=…
AIGC,全名“AI generated content”,翻译过来就是人工智能生成内容,又称生成式AI。
最近火爆了,于是手痒痒折腾一把。
先是训练了一个自己的声音模型,结合GPT助理「 https://t.kainy.cn/GPT/ 」生成的端午诗歌,做成一个 “端午节为你读诗” 的小应用「 https://t.kainy.cn/TTS/ 」
这是基于通用声学模型微调而来的个人语音模型,对我的声学特征进行模拟,可以将所输入的文字内容比如“风浪越大鱼越贵” 以我的发音方式读出来。
五月初五端阳至,蒲叶飘香引游子。 携手同赏龙舟赛,喜庆佳节笑语融。 艾蒿遍地挂香袋,古调新声共欢颂。 祈福家国和平稳,愿你节日快乐逢。疫情危,人心冷,防控之时疫情防; 端午到,良时节,吴越风光人欢畅。 赛龙舟,饮雄黄,五色线带彩云飘。 粽香味,趣胜糕,唯愿疫情快过去。
(音频上传还要等待审核,有点麻烦,感兴趣可以长按访问 https:// t.kainy.cn/TTS/ 进去试试其他文案,看生成的声音和我像不像~)
关于合成速度,因为跑模型需要大量运算资源,出于成本考量,合成接口此刻正“吭呲吭哧”运行在我从二手市场淘的、别人家祖传的、 第三代因特尔处理器主机上。
简言之就是算力不够,合成一段300字以内的语音通常需要10-20秒。
为了更好的使用体验(以及出于对CPU老人家的人道主义考虑)对生成过的音频做了一层缓存。如果你合成的音频几秒就返回了,说明这个音频来自别人生成过的缓存文件
声音和文案都有了。
翻出之前司庆活动合成的职业照,与音频文件一并上传到 HeyGen「 https://t.kainy.cn/HeyGen/ 通过此链接注册,免费领取1分钟视频合成体验时长」,通过他们的声音驱动嘴型服务,生成了如下测试视频…
嗯,貌似还不错。
就是这姿势… 为什么看起来如此成功 先凑合吧
如此帅比而又傲娇的造型,让人不禁想看看卖货的效果,找些素材试试
由于 HeyGen 给的体验时长有限,视频比较简短。怎么样,这样的卖货视频你会买账嘛?