VALL-E X多语言文本到语音合成与语音克隆-技术圈

微软 VALL-E X 零样本语音合成模型的开源实现。预训练模型现已向公众开放，供研究或应用使用。

VALL-E X 是一个强大而创新的多语言文本转语音（TTS）模型，最初由微软发布。虽然微软最初在他们的研究论文中提出了该概念，但并未发布任何代码或预训练模型。

VALL-E X 可以为单语使用者合成另一种语言的个性化语音。以源自源文本和目标文本的音素序列以及源自音频编解码器模型的源声学标记作为提示，VALL-E X 能够生成目标语言的声学标记，然后将其解压缩为目标语言语音波形。得益于强大的上下文学习能力，VALL-E X不需要同一说话人的跨语言语音数据进行训练，可以执行各种零样本跨语言语音生成任务，例如跨语言文本到-语音合成和语音到语音翻译。

功能特点

多语言 TTS: 可使用三种语言 - 英语、中文和日语 - 进行自然、富有表现力的语音合成。

零样本语音克隆: 仅需录制任意说话人的短短的 3~10 秒录音，VALL-E X 就能生成个性化、高质量的语音，完美还原他们的声音。

语音情感控制: VALL-E X 可以合成与给定说话人录音相同情感的语音，为音频增添更多表现力。

零样本跨语言语音合成: VALL-E X 可以合成与给定说话人母语不同的另一种语言，在不影响口音和流利度的同时，保留该说话人的音色与情感。

口音控制: VALL-E X 允许您控制所合成音频的口音，比如说中文带英语口音或反之。

声学环境保留: 当给定说话人的录音在不同的声学环境下录制时，VALL-E X 可以保留该声学环境，使合成语音听起来更加自然。

查看 demo页面来浏览更多示例。