照片换脸+语音合成+声音驱动嘴型=…

Kainy

共 1043字,需浏览 3分钟

 ·

2023-06-21 05:41

AIGC,全名“AI generated content”,翻译过来就是人工智能生成内容,又称生成式AI。

最近火爆了,于是手痒痒折腾一把。

先是训练了一个自己的声音模型,结合GPT助理「 https://t.kainy.cn/GPT/ 」生成的端午诗歌,做成一个 “端午节为你读诗” 的小应用「 https://t.kainy.cn/TTS/

这是基于通用声学模型微调而来的个人语音模型,对我的声学特征进行模拟,可以将所输入的文字内容比如“风浪越大鱼越贵” 以我的发音方式读出来。

      五月初五端阳至,蒲叶飘香引游子。      携手同赏龙舟赛,喜庆佳节笑语融。       艾蒿遍地挂香袋,古调新声共欢颂。       祈福家国和平稳,愿你节日快乐逢。
           疫情危,人心冷,防控之时疫情防;      端午到,良时节,吴越风光人欢畅。       赛龙舟,饮雄黄,五色线带彩云飘。       粽香味,趣胜糕,唯愿疫情快过去。

(音频上传还要等待审核,有点麻烦,感兴趣可以长按访问 https:// t.kainy.cn/TTS/ 进去试试其他文案,看生成的声音和我像不像~)

关于合成速度,因为跑模型需要大量运算资源,出于成本考量,合成接口此刻正“吭呲吭哧”运行在我从二手市场淘的、别人家祖传的、  第三代因特尔处理器主机上。

简言之就是算力不够,合成一段300字以内的语音通常需要10-20秒。

为了更好的使用体验(以及出于对CPU老人家的人道主义考虑)对生成过的音频做了一层缓存。如果你合成的音频几秒就返回了,说明这个音频来自别人生成过的缓存文件 

声音和文案都有了。

翻出之前司庆活动合成的职业照,与音频文件一并上传到 HeyGenhttps://t.kainy.cn/HeyGen/ 通过此链接注册,免费领取1分钟视频合成体验时长」,通过他们的声音驱动嘴型服务,生成了如下测试视频… 

嗯,貌似还不错。

就是这姿势… 为什么看起来如此成功 82a245948b637d3cce856c54ab1a747a.webp  先凑合吧

如此帅比而又傲娇的造型,让人不禁想看看卖货的效果,些素材试试

由于 HeyGen 给的体验时长有限,视频比较简短。怎么样,这样的卖货视频你会买账嘛?
浏览 12
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报