PaddleSpeech基于飞桨的语音开源模型库
PaddleSpeech 是基于飞桨 PaddlePaddle 的语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。
特性:
本项目采用了易用、高效、灵活以及可扩展的实现,旨在为工业应用、学术研究提供更好的支持,实现的功能包含训练、推断以及测试模块,以及部署过程,主要包括
- 易用性: 安装门槛低,可使用 CLI 快速开始。
- 对标 SoTA: 提供了高速、轻量级模型,且借鉴了最前沿的技术。
- 基于规则的中文前端: 我们的前端包含文本正则化和字音转换(G2P)。此外,我们使用自定义语言规则来适应中文语境。
- 多种工业界以及学术界主流功能支持:
- 典型音频任务: 本工具包提供了音频任务如音频分类、语音翻译、自动语音识别、文本转语音、语音合成等任务的实现。
- 主流模型及数据集: 本工具包实现了参与整条语音任务流水线的各个模块,并且采用了主流数据集如 LibriSpeech、LJSpeech、AIShell、CSMSC,详情请见 模型列表。
- 级联模型应用: 作为传统语音任务的扩展,我们结合了自然语言处理、计算机视觉等任务,实现更接近实际需求的产业级应用。
近期更新:
- 2021.12.14: 我们在 Hugging Face Spaces 上的 ASR 以及 TTS Demos 上线啦!
- 2021.12.10: PaddleSpeech CLI 上线!覆盖了声音分类、语音识别、语音翻译(英译中)以及语音合成。
安装
我们强烈建议用户在 Linux 环境下,3.7 以上版本的 python 上安装 PaddleSpeech。 目前为止,Linux 支持声音分类、语音识别、语音合成和语音翻译四种功能,Mac OSX、 Windows 下暂不支持语音翻译功能。 想了解具体安装细节,可以参考安装文档。
快速开始
安装完成后,开发者可以通过命令行快速开始,改变 --input
可以尝试用自己的音频或文本测试。
声音分类
paddlespeech cls --input input.wav
语音识别
paddlespeech asr --lang zh --input input_16k.wav
语音翻译 (English to Chinese)
paddlespeech st --input input_16k.wav
语音合成
paddlespeech tts --input "你好,欢迎使用百度飞桨深度学习框架!" --output output.wav
- 语音合成的 web demo 已经集成进了 Huggingface Spaces. 请参考: TTS Demo
文本后处理
- 标点恢复
paddlespeech text --task punc --input 今天的天气真不错啊你下午有空吗我想约你一起去吃饭
更多命令行命令请参考 demos
评论
PaddleOCR基于飞桨的 OCR 工具库
PaddleOCR是基于飞桨的OCR工具库,包含总模型仅8.6M的超轻量级中文OCR,单模型支持中英文数字组合识别、竖排文本识别、长文本识别。同时支持多种文本检测、文本识别的训练算法。##CPU版本安
PaddleOCR基于飞桨的 OCR 工具库
0
Google-LyraGoogle 开源的语音编解码器
Lyra 是一种高质量、低比特率的语音编解码器,即使在最慢的网络上也可以进行语音通信。为此,它应用了
Google-LyraGoogle 开源的语音编解码器
0
OpenAI-WhisperOpenAI 开源的语音识别系统
Whisper 是 OpenAI 开源的自动语音识别(ASR,Automatic Speech Re
OpenAI-WhisperOpenAI 开源的语音识别系统
0
Google-LyraGoogle 开源的语音编解码器
Lyra 是一种高质量、低比特率的语音编解码器,即使在最慢的网络上也可以进行语音通信。为此,它应用了传统的编解码器技术,同时利用机器学习(ML)的进步和在数千小时数据上训练的模型来创建压缩和传输语音信
Google-LyraGoogle 开源的语音编解码器
0
OpenAI-WhisperOpenAI 开源的语音识别系统
Whisper是OpenAI开源的自动语音识别(ASR,AutomaticSpeechRecognition)系统,OpenAI通过从网络上收集了68万小时的多语言(98种语言)和多任务(multit
OpenAI-WhisperOpenAI 开源的语音识别系统
0
mycroft-core开源语音助手
Mycroft是一个开源语音助手入门首先获取系统上的代码,最简单的方法是通过git(git安装说明):cd~/gitclonehttps://github.com/MycroftAI/mycroft-
mycroft-core开源语音助手
0
Common Voice DatasetMozilla 开源的语音数据库
CommonVoice是Mozilla的开源项目,基于MPL协议发行,到目前为止已经诞生了几年时间,它允许志愿者们为语音识别软件的数据库做出贡献,而这个数据库属于公共领域,所有人都可以将这些数据用于语
Common Voice DatasetMozilla 开源的语音数据库
0