ASRT基于深度学习的中文语音识别系统
ASRT 是一个基于深度学习的中文语音识别系统,全称为 Auto Speech Recognition Tool。此项目使用 Keras、TensorFlow,基于深度卷积神经网络和长短时记忆神经网络、注意力机制以及 CTC 实现。
ASRT 项目的声学模型通过采用卷积神经网络(CNN)和连接性时序分类(CTC)方法,使用大量中文语音数据集进行训练,将声音转录为中文拼音,并通过语言模型,将拼音序列转换为中文文本。
系统运行流程
- 特征提取:将普通的wav语音信号通过分帧加窗等操作转换为神经网络需要的二维频谱图像信号,即语谱图。
- 声学模型:基于Keras和TensorFlow框架,使用这种参考了VGG的深层的卷积神经网络作为网络模型,并训练。
- CTC解码:在语音识别系统的声学模型的输出中,往往包含了大量连续重复的符号,因此,我们需要将连续相同的符合合并为同一个符号,然后再去除静音分隔标记符,得到最终实际的语音拼音符号序列。
- 语言模型:使用统计语言模型,将拼音转换为最终的识别文本并输出。拼音转文本的本质被建模为一条隐含马尔可夫链,这种模型有着很高的准确率。(其原理请看:https://blog.ailemon.net/2017/04/27/statistical-language-model-chinese-pinyin-to-words/)
评论