照片换脸+语音合成+声音驱动嘴型=…

共 1043字,需浏览 3分钟

 ·

2023-06-21 05:41


AIGC,全名“AI generated content”,翻译过来就是人工智能生成内容,又称生成式AI。


最近火爆了,于是手痒痒折腾一把。


先是训练了一个自己的声音模型,结合GPT助理「 https://t.kainy.cn/GPT/ 」生成的端午诗歌,做成一个 “端午节为你读诗” 的小应用「 https://t.kainy.cn/TTS/


这是基于通用声学模型微调而来的个人语音模型,对我的声学特征进行模拟,可以将所输入的文字内容比如“风浪越大鱼越贵” 以我的发音方式读出来。


      五月初五端阳至,蒲叶飘香引游子。      携手同赏龙舟赛,喜庆佳节笑语融。
      艾蒿遍地挂香袋,古调新声共欢颂。
      祈福家国和平稳,愿你节日快乐逢。

           疫情危,人心冷,防控之时疫情防;      端午到,良时节,吴越风光人欢畅。
      赛龙舟,饮雄黄,五色线带彩云飘。
      粽香味,趣胜糕,唯愿疫情快过去。



(音频上传还要等待审核,有点麻烦,感兴趣可以长按访问 https://



t.kainy.cn/TTS/



进去试试其他文案,看生成的声音和我像不像~)


关于合成速度,因为跑模型需要大量运算资源,出于成本考量,合成接口此刻正“吭呲吭哧”运行在我从二手市场淘的、别人家祖传的、  第三代因特尔处理器主机上。


简言之就是算力不够,合成一段300字以内的语音通常需要10-20秒。


为了更好的使用体验(以及出于对CPU老人家的人道主义考虑)对生成过的音频做了一层缓存。如果你合成的音频几秒就返回了,说明这个音频来自别人生成过的缓存文件 


声音和文案都有了。


翻出之前司庆活动合成的职业照,与音频文件一并上传到 HeyGenhttps://t.kainy.cn/HeyGen/ 通过此链接注册,免费领取1分钟视频合成体验时长」,通过他们的声音驱动嘴型服务,生成了如下测试视频… 



嗯,貌似还不错。


就是这姿势… 为什么看起来如此成功 82a245948b637d3cce856c54ab1a747a.webp  先凑合吧


如此帅比而又傲娇的造型,让人不禁想看看卖货的效果,些素材试试



由于 HeyGen 给的体验时长有限,视频比较简短。怎么样,这样的卖货视频你会买账嘛?
浏览 21
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报