OpenAI 推出语音引擎,只需15秒样本,即能重建任何人的声音
共 3913字,需浏览 8分钟
· 2024-04-03
大数据文摘受权转载自夕小瑶科技说
作者 | 付奶茶
OpenAI 又带来了一项超酷的进展!周五推出了一项名为 Voice Engine 的语音引擎,仅凭一段15秒的声音样本,便能够精准模仿出那个人的声音。
Voice Engine 的独特之处在于,它能通过简单的文本输入和短短音频样本,创造出非常接近原始说话者的自然声音。这意味着无论你让它读什么语言的文字,都能以那个人独有的声音风格朗读,效果既逼真又充满感情。
总而言之,OpenAI 通过这项新技术展示了人工智能复制人声的惊人可能性,接下来让我们一起看下吧~
Voice Engine 两年前已开始研发
事实上,OpenAI 早在 2022 年末便启动了 Voice Engine 的开发,并已利用此技术为其文本到语音 API、ChatGPT Voice 以及朗读功能装配了预设声音。
在技术成功开发后,OpenAI 并未立即向市场全面推广,而是选择与一小群早期测试者“小心翼翼”地合作,共同探索其应用可能性和潜在风险。
在与 TechCrunch 的采访中,OpenAI 产品团队成员 Jeff Harris 透露,该模型是在“已获授权和公开可用数据的结合”上进行训练的。该技术将仅限于大约 10 名开发者使用,获准访问的组织包括教育技术企业 Age of Learning、视觉叙事平台 HeyGen、前沿健康软件制造商 Dimagi、AI 通信应用开发者 Livox 以及医疗健康系统 Lifespan。
OpenAI在官网展示出了一些已经开始应用的例子:
1. 生成更自然、富有情感的声音
通过自然、富有情感的声音,比预设的声音更能代表更广泛的说话者,为非读者和儿童提供阅读帮助,致力于儿童学业的教育技术公司Age of Learning使用这其生成预先编写好的配音内容。此外,语音引擎和GPT-4创建实时、个性化的响应来与学生互动。
原预设录音:
2. 翻译视频和播客等内容
3. 改善偏远地区的基本服务
4.支持言语障碍人士提供帮助
5. 帮助患者恢复他们的声音
潜在风险与安全措施
小结
参考资料
[2]https://www.theverge.com/23864878/ai-voice-clones-podcastle-elevenlabs-personal-voice
[3]https://www.nytimes.com/2024/03/29/technology/openai-voice-engine.html