7K Stars!这款文本转语音(TTS)的效果太震撼,网络上的声音评价真是不能轻信啊!!
共 3853字,需浏览 8分钟
·
2024-08-06 17:10
—1—
Fish Speech 是什么?
如果你打算制作视频,但又觉得在镜头前有些紧张,那么你将迎来好消息。今年,各种文本转语音(TTS)工具如雨后春笋般涌现,只需准备好文字内容,TTS 就能自动转换成各种语音。
今天,我们将介绍一个开源的 TTS 项目,它能够快速复制声音,效果令人印象深刻,能够满足用户的个性化需求。它就是:Fish Speech。
Github 地址:https://github.com/fishaudio/fish-speech
Fish Speech 是一款高度可定制的文本转语音(TTS)解决方案,架构设计如下图所示,分为训练阶段一和二,以及在线推理阶段。它能够根据用户的具体需求,提供灵活多变的声音输出。该工具特别采用了 Flash-Attn 算法,这一算法在处理大规模数据集时表现出色,以其卓越的效率、精确度和稳定性而闻名,从而显著提升了 TTS 技术的整体性能。
Fish Speech 的另一个亮点是其无需复杂的训练过程,用户只需上传一段原始语音样本,便能迅速生成与之相似的语音。此外,该工具对显存的要求相对较低,只需 4GB 的内存即可运行,且推理速度非常快,这大大提升了用户的使用体验。
自发布以来,Fish Speech 凭借其出色的效果和易于上手的特点,迅速获得了广泛的关注和好评。
它具备的特性如下所示:
文本至语音的即时转换:迅速将文字转换为自然流畅的语音输出。
多语种覆盖:支持中文、英文和日文等多种语言,轻松跨越语言障碍。
个性化语音克隆:借助深度学习技术,轻松克隆个性化语音。
低资源占用:仅需 4GB 显存,降低硬件需求门槛。
快速处理:优化推理流程,减少等待时间,提升处理效率。
丰富的语音模型选择:提供多种先进语音模型,满足不同应用需求。
易于使用:简化安装和配置过程,用户可轻松上手。
精细调校:LoRA 技术支持对模型进行细致调整。
性能优化:采用先进技术,确保高效稳定的语音转换能力。
—2—
一键部署
GPU 内存
4GB (用于推理),8GB (用于微调)
支持操作系统
Linux、Windows
window建议考虑 WSL2 或 docker 来运行代码库。如果是想要不使用Linux环境来安装的话,可以参考文档进行操作,也不是很复杂。
第二、Linux 系统部署参考如下
# 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenv
conda create -n fish-speech python=3.10
conda activate fish-speech
# 安装 pytorch
pip3 install torch torchvision torchaudio
# 安装 fish-speech
pip3 install -e .
# (Ubuntu / Debian 用户) 安装 sox
apt install libsox-dev
第三、完成部署启动后 Web 界面效果如下
—3—
在线推理
Fish Speech 推理过程可以分为几个关键步骤:
1. 语音编码:首先,输入一段大约10秒的语音,使用 VQGAN(VQ-VAE-GAN)对其进行编码。
2. 语义 token 与文本结合:将编码后的语义 token 与相应的文本输入给大模型,作为训练的例子。
3. 生成新的语义 token:给定一段新的文本,让大模型生成对应的语义 token。
4. 语音解码:将生成的语义 token 输入 VQGAN 进行解码,生成对应的语音输出。
目前,推理支持三种不同的方式:命令行、HTTP API 和 Web UI。
接下来,我将介绍 HTTP API 和 Web UI的使用方式。
第一、HTTP API 方式
要使用 HTTP API,首先需要启动 AP I服务。用户可以通过发送特定的 HTTP请求来触发推理过程。比如:可以发送一个 POST 请求,包含语音编码后的数据和待生成的文本,然后 API 会返回相应的语音输出。这种方式适合自动化处理,比如:在服务器端集成或通过编程调用。
步骤一:启动服务
python -m tools.api \\
--listen 0.0.0.0:8080 \\
--llama-checkpoint-path "checkpoints/fish-speech-1.2" \\
--decoder-checkpoint-path "checkpoints/fish-speech-1.2/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" \\
--decoder-config-name firefly_gan_vq
步骤二:在 http://127.0.0.1:8080/ 中查看并测试 API,请求示例代码如下:
python -m tools.post_api \\
--text "要输入的文本" \\
--reference_audio "参考音频路径" \\
--reference_text "参考音频的文本内容" \\
--streaming True
第二、Web UI 方式
Web UI 提供了用户友好的界面,让用户可以通过浏览器直接与系统交互。用户可以在界面上输入文本,选择大模型,上传语音样本,并触发推理。Web UI还可能包括一些高级功能,比如:大模型选择、参数调整等。这种方式适合那些不熟悉编程但希望快速体验服务的用户。
启动 Web UI 步骤如下:
python -m tools.webui \\
--llama-checkpoint-path "checkpoints/fish-speech-1.2" \\
--decoder-checkpoint-path "checkpoints/fish-speech-1.2/firefly-gan-vq-fsq-4x1024-42hz-generator.pth" \\
--decoder-config-name firefly_gan_vq
总的来说,HTTP API 和 Web UI 都提供了方便的方式来使用语音转换服务,无论是在自动化还是用户交互方面。
—4—
在线 Demo
你可以选择已经有的声音来使用,也可以构建自己的声音,我觉得非常的贴心,对于那些动手能力不强的同学,是绝对的福音。比如:这一段,可以听听看效果。
你也可以定制自己的声音,如下所示:
—5—
大模型直播课
—6—
加我微信
有很多不方便公开发公众号的我会直接分享在朋友圈,欢迎你扫码加我个人微信来看👇
⬇戳”阅读原文“,立即预约!
END