ASRT基于深度学习的中文语音识别系统

联合创作 · 2023-09-30 10:11

ASRT 是一个基于深度学习的中文语音识别系统，全称为 Auto Speech Recognition Tool。此项目使用 Keras、TensorFlow，基于深度卷积神经网络和长短时记忆神经网络、注意力机制以及 CTC 实现。

ASRT 项目的声学模型通过采用卷积神经网络（CNN）和连接性时序分类（CTC）方法，使用大量中文语音数据集进行训练，将声音转录为中文拼音，并通过语言模型，将拼音序列转换为中文文本。

系统运行流程

特征提取：将普通的wav语音信号通过分帧加窗等操作转换为神经网络需要的二维频谱图像信号，即语谱图。

声学模型：基于Keras和TensorFlow框架，使用这种参考了VGG的深层的卷积神经网络作为网络模型，并训练。

CTC解码：在语音识别系统的声学模型的输出中，往往包含了大量连续重复的符号，因此，我们需要将连续相同的符合合并为同一个符号，然后再去除静音分隔标记符，得到最终实际的语音拼音符号序列。

语言模型：使用统计语言模型，将拼音转换为最终的识别文本并输出。拼音转文本的本质被建模为一条隐含马尔可夫链，这种模型有着很高的准确率。（其原理请看：https://blog.ailemon.net/2017/04/27/statistical-language-model-chinese-pinyin-to-words/）

浏览 14

点赞

收藏

分享

举报

评论

图片

表情

基于深度学习的图标型验证码识别系统

Python中文社区

基于深度学习的中文文本分类综述

来源：专知本文为论文介绍，建议阅读5分钟本文将简要介绍传统机器学习的文本分类方法，详细阐述使用深度学习的文本分类方法。大数据时代，随着社交媒体的不断普及，在网络以及生活中，各类文本数据日益增长，采用文本分类技术对文本数据进行分析和管理具有重要的意义。文本分类是自然语言处理领域中的一个基础研究内容，

Simon语音识别系统

Simon是一个开源的语音识别系统，它不仅可以输入文字，而且可以代替键盘、鼠标操作电脑。Simon基于Qt用C++开发，因为某些支持库与KDE相同，所以可完美的集成到KDE4中。除KDE之外，Simo

Coqui TTS基于深度学习的文本转语音库

CoquiTTS是一个用于高级文本到语音生成的库。它建立在最新研究的基础上，旨在实现易于训练、速度和质量之间的最佳平衡。CoquiTTS带有预训练模型、用于测量数据集质量的工具，并且已经在20多种语言

DFace深度学习人脸识别系统

DFace 是个开源的深度学习人脸检测和人脸识别系统。所有功能都采用pytorch框架开发。pytorch是一个由facebook开发的深度学习框架，它包含了一些比较有趣的高级特性，例如自动求导，动态

OpenAI-WhisperOpenAI 开源的语音识别系统

Whisper 是 OpenAI 开源的自动语音识别（ASR，Automatic Speech Re

Coqui TTS基于深度学习的文本转语音库

Coqui TTS 是一个用于高级文本到语音生成的库。它建立在最新研究的基础上，旨在实现易于训练、速

【深度学习】你不知道的车牌识别系统

机器学习初学者

OpenAI-WhisperOpenAI 开源的语音识别系统

Whisper是OpenAI开源的自动语音识别（ASR，AutomaticSpeechRecognition）系统，OpenAI通过从网络上收集了68万小时的多语言（98种语言）和多任务（multit

基于深度学习的畸变校正

小白学视觉