ASRT基于深度学习的中文语音识别系统
ASRT 是一个基于深度学习的中文语音识别系统,全称为 Auto Speech Recognition Tool。此项目使用 Keras、TensorFlow,基于深度卷积神经网络和长短时记忆神经网络、注意力机制以及 CTC 实现。
ASRT 项目的声学模型通过采用卷积神经网络(CNN)和连接性时序分类(CTC)方法,使用大量中文语音数据集进行训练,将声音转录为中文拼音,并通过语言模型,将拼音序列转换为中文文本。
系统运行流程
- 特征提取:将普通的wav语音信号通过分帧加窗等操作转换为神经网络需要的二维频谱图像信号,即语谱图。
- 声学模型:基于Keras和TensorFlow框架,使用这种参考了VGG的深层的卷积神经网络作为网络模型,并训练。
- CTC解码:在语音识别系统的声学模型的输出中,往往包含了大量连续重复的符号,因此,我们需要将连续相同的符合合并为同一个符号,然后再去除静音分隔标记符,得到最终实际的语音拼音符号序列。
- 语言模型:使用统计语言模型,将拼音转换为最终的识别文本并输出。拼音转文本的本质被建模为一条隐含马尔可夫链,这种模型有着很高的准确率。(其原理请看:https://blog.ailemon.net/2017/04/27/statistical-language-model-chinese-pinyin-to-words/)
评论
DFace深度学习人脸识别系统
DFace 是个开源的深度学习人脸检测和人脸识别系统。所有功能都采用pytorch框架开发。pytorch是一个由facebook开发的深度学习框架,它包含了一些比较有趣的高级特性,例如自动求导,动态
DFace深度学习人脸识别系统
0
Simon语音识别系统
Simon是一个开源的语音识别系统,它不仅可以输入文字,而且可以代替键盘、鼠标操作电脑。Simon基于Qt用C++开发,因为某些支持库与KDE相同,所以可完美的集成到KDE4中。除KDE之外,Simo
Simon语音识别系统
0
Coqui TTS基于深度学习的文本转语音库
CoquiTTS是一个用于高级文本到语音生成的库。它建立在最新研究的基础上,旨在实现易于训练、速度和质量之间的最佳平衡。CoquiTTS带有预训练模型、用于测量数据集质量的工具,并且已经在20多种语言
Coqui TTS基于深度学习的文本转语音库
0
OpenAI-WhisperOpenAI 开源的语音识别系统
Whisper 是 OpenAI 开源的自动语音识别(ASR,Automatic Speech Re
OpenAI-WhisperOpenAI 开源的语音识别系统
0