PaddleSpeech基于飞桨的语音开源模型库-技术圈

PaddleSpeech 是基于飞桨 PaddlePaddle 的语音方向的开源模型库，用于语音和音频中的各种关键任务的开发，包含大量基于深度学习前沿和有影响力的模型。

特性:

本项目采用了易用、高效、灵活以及可扩展的实现，旨在为工业应用、学术研究提供更好的支持，实现的功能包含训练、推断以及测试模块，以及部署过程，主要包括

易用性: 安装门槛低，可使用 CLI 快速开始。

对标 SoTA: 提供了高速、轻量级模型，且借鉴了最前沿的技术。

基于规则的中文前端: 我们的前端包含文本正则化和字音转换（G2P）。此外，我们使用自定义语言规则来适应中文语境。

多种工业界以及学术界主流功能支持:
- 典型音频任务: 本工具包提供了音频任务如音频分类、语音翻译、自动语音识别、文本转语音、语音合成等任务的实现。
- 主流模型及数据集: 本工具包实现了参与整条语音任务流水线的各个模块，并且采用了主流数据集如 LibriSpeech、LJSpeech、AIShell、CSMSC，详情请见模型列表。
- 级联模型应用: 作为传统语音任务的扩展，我们结合了自然语言处理、计算机视觉等任务，实现更接近实际需求的产业级应用。

近期更新:

2021.12.14: 我们在 Hugging Face Spaces 上的 ASR 以及 TTS Demos 上线啦!

2021.12.10: PaddleSpeech CLI 上线！覆盖了声音分类、语音识别、语音翻译（英译中）以及语音合成。

安装

我们强烈建议用户在 Linux 环境下，3.7 以上版本的 python 上安装 PaddleSpeech。目前为止，Linux 支持声音分类、语音识别、语音合成和语音翻译四种功能，Mac OSX、 Windows 下暂不支持语音翻译功能。想了解具体安装细节，可以参考安装文档。

快速开始

安装完成后，开发者可以通过命令行快速开始，改变 --input 可以尝试用自己的音频或文本测试。

声音分类



paddlespeech cls --input input.wav

语音识别



paddlespeech asr --lang zh --input input_16k.wav

语音翻译 (English to Chinese)



paddlespeech st --input input_16k.wav

语音合成



paddlespeech tts --input "你好，欢迎使用百度飞桨深度学习框架！" --output output.wav

语音合成的 web demo 已经集成进了 Huggingface Spaces. 请参考: TTS Demo

文本后处理

标点恢复



paddlespeech text --task punc --input 今天的天气真不错啊你下午有空吗我想约你一起去吃饭

更多命令行命令请参考 demos

Note: 如果需要训练或者微调，请查看语音识别，语音合成。