AudioLDM2文本转音频/音乐生成

联合创作 · 2023-09-26 00:08

AudioLDM2 支持文本到音频(包括音乐)和文本到语音生成。目前支持:

  • 添加文本转语音 checkpoint
  • 支持生成更长的音频(>10s)
  • 优化模型的推理速度。
  • 与 Diffusers 库集成(参阅 Diffusers

预训练模型

可以通过设置“model_name”来选择模型 checkpoint

# CUDA
audioldm2 --model_name "audioldm2-full" --device cuda -t "Musical constellations twinkling in the night sky, forming a cosmic melody."

# MPS
audioldm2 --model_name "audioldm2-full" --device mps -t "Musical constellations twinkling in the night sky, forming a cosmic melody."

有五个 checkpoint 可供选择:

  1. audioldm2-full(默认):使用 AudioLDM2 架构生成音效和音乐。
  2. audioldm_48k:该 checkpoint 可以生成高保真音效和音乐。
  3. audioldm_16k_crossattn_t5 : AudioLDM 1.0的改进版本。
  4. audioldm2-full-large-1150k:audioldm2-full 的更大版本。
  5. audioldm2-music-665k:音乐生成。
  6. audioldm2-speech-gigaspeech(TTS 的默认值):文本转语音,在 GigaSpeech 数据集上进行训练。
  7. audioldm2-speech-ljspeech:文本转语音,在 LJSpeech 数据集上进行训练。

目前支持 3 种设备:

  • cpu
  • cuda
  • mps(注意,计算需要大约 20GB 的 RAM)
浏览 4
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报