AudioLDM2文本转音频/音乐生成
AudioLDM2 支持文本到音频(包括音乐)和文本到语音生成。目前支持:
- 添加文本转语音 checkpoint
- 支持生成更长的音频(>10s)
- 优化模型的推理速度。
- 与 Diffusers 库集成(参阅 Diffusers)
预训练模型
可以通过设置“model_name”来选择模型 checkpoint:
# CUDA
audioldm2 --model_name "audioldm2-full" --device cuda -t "Musical constellations twinkling in the night sky, forming a cosmic melody."
# MPS
audioldm2 --model_name "audioldm2-full" --device mps -t "Musical constellations twinkling in the night sky, forming a cosmic melody."
有五个 checkpoint 可供选择:
- audioldm2-full(默认):使用 AudioLDM2 架构生成音效和音乐。
- audioldm_48k:该 checkpoint 可以生成高保真音效和音乐。
- audioldm_16k_crossattn_t5 : AudioLDM 1.0的改进版本。
- audioldm2-full-large-1150k:audioldm2-full 的更大版本。
- audioldm2-music-665k:音乐生成。
- audioldm2-speech-gigaspeech(TTS 的默认值):文本转语音,在 GigaSpeech 数据集上进行训练。
- audioldm2-speech-ljspeech:文本转语音,在 LJSpeech 数据集上进行训练。
目前支持 3 种设备:
- cpu
- cuda
- mps(注意,计算需要大约 20GB 的 RAM)
评论