AudioLDM2文本转音频/音乐生成

联合创作 · 2023-09-26 00:08

AudioLDM2 支持文本到音频（包括音乐）和文本到语音生成。目前支持：

添加文本转语音 checkpoint

支持生成更长的音频（>10s）

优化模型的推理速度。

与 Diffusers 库集成（参阅 Diffusers）

预训练模型

可以通过设置“model_name”来选择模型 checkpoint：



# CUDA

audioldm2 --model_name "audioldm2-full" --device cuda -t "Musical constellations twinkling in the night sky, forming a cosmic melody."



# MPS

audioldm2 --model_name "audioldm2-full" --device mps -t "Musical constellations twinkling in the night sky, forming a cosmic melody."

有五个 checkpoint 可供选择：

audioldm2-full（默认）：使用 AudioLDM2 架构生成音效和音乐。

audioldm_48k：该 checkpoint 可以生成高保真音效和音乐。

audioldm_16k_crossattn_t5 ： AudioLDM 1.0的改进版本。

audioldm2-full-large-1150k：audioldm2-full 的更大版本。

audioldm2-music-665k：音乐生成。

audioldm2-speech-gigaspeech（TTS 的默认值）：文本转语音，在 GigaSpeech 数据集上进行训练。

audioldm2-speech-ljspeech：文本转语音，在 LJSpeech 数据集上进行训练。

目前支持 3 种设备：

cpu

cuda

mps（注意，计算需要大约 20GB 的 RAM）

浏览 17

点赞

收藏

分享

举报

评论

图片

表情

Bark文本提示生成音频模型

Bark是由Suno创建的基于转换器的文本到音频模型。Bark可以生成高度逼真的多语言语音以及其他音频-包括音乐、背景噪音和简单的音效。该模型还可以产生非语言交流，如大笑、叹息和哭泣。为了支持研究社区

Bark文本提示生成音频模型

Bark 是由 Suno 创建的基于转换器的文本到音频模型。Bark 可以生成高度逼真的多语言语音以

文本生成，文本数据增强怎么做？

机器学习AI算法工程

Processus文本生成工具

Processus 是一个灵活而且强大的文本生成工具。包含各种生成策略：生成 HTML、JSON 和

Texen文本生成工具

Texen是一种通用的文字生成工具。能够生产几乎任何种类的文本输出。提供一个Ant的任务， Texe

Prompt之文本生成

Texen文本生成工具

Texen是一种通用的文字生成工具。能够生产几乎任何种类的文本输出。提供一个Ant的任务，Texen使用一个控制模板，以及一些可选的worker模板，用来控制和管理输出。控制模板示例：#*file:C

Processus文本生成工具

Processus是一个灵活而且强大的文本生成工具。包含各种生成策略：生成HTML、JSON和其他递归文本数据结构生成随机的单词、语句甚至是故事创建强密码生成字符名称和其他属性对字符串进行过滤从数据集

AnimateDiff 文本生成视频

AnimateDiff 是一个能够将个性化的文本转换为动态图像或视频（text to video）的扩展模型，它可以将生成的静态图像与动态运动结合起来，从而创建个性化的动画图像。 AnimateDiff 的主要特点是可以适用于大多数现有的...

Siren基于文本的音频播放器

Siren 是一个基于文本的音频播放器，用于 Linux/Unix 系统。支持 Ogg Vorbis

点赞

收藏

分享

举报