AudioLDM2文本转音频/音乐生成

联合创作 · 2023-09-26 00:08

AudioLDM2 支持文本到音频(包括音乐)和文本到语音生成。目前支持:



  • 添加文本转语音 checkpoint

  • 支持生成更长的音频(>10s)

  • 优化模型的推理速度。

  • 与 Diffusers 库集成(参阅 Diffusers


预训练模型


可以通过设置“model_name”来选择模型 checkpoint




# CUDA
audioldm2 --model_name "audioldm2-full" --device cuda -t "Musical constellations twinkling in the night sky, forming a cosmic melody."

# MPS
audioldm2 --model_name "audioldm2-full" --device mps -t "Musical constellations twinkling in the night sky, forming a cosmic melody."


有五个 checkpoint 可供选择:



  1. audioldm2-full(默认):使用 AudioLDM2 架构生成音效和音乐。

  2. audioldm_48k:该 checkpoint 可以生成高保真音效和音乐。

  3. audioldm_16k_crossattn_t5 : AudioLDM 1.0的改进版本。

  4. audioldm2-full-large-1150k:audioldm2-full 的更大版本。

  5. audioldm2-music-665k:音乐生成。

  6. audioldm2-speech-gigaspeech(TTS 的默认值):文本转语音,在 GigaSpeech 数据集上进行训练。

  7. audioldm2-speech-ljspeech:文本转语音,在 LJSpeech 数据集上进行训练。


目前支持 3 种设备:



  • cpu

  • cuda

  • mps(注意,计算需要大约 20GB 的 RAM)

浏览 17
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报