Common Voice DatasetMozilla 开源的语音数据库

联合创作 · 2023-09-25 21:38

Common Voice 是 Mozilla 的开源项目，基于 MPL 协议发行，到目前为止已经诞生了几年时间，它允许志愿者们为语音识别软件的数据库做出贡献，而这个数据库属于公共领域，所有人都可以将这些数据用于语音合成和识别软件。新的数据集大约每 6 个月发布一次。

所有的语音贡献都作为数据集的一部分发布，而不考虑验证状态。只在用户有要求的情况下才会从数据集中删除片段。这些片段被捆绑起来，并使用 Common Voice Bundler 工具上传到 S3。

每个下载的 .tar.gz 文件将有以下结构，其中 [lang] 代表该语言的 ISO 639-1 代码。



[lang].tar.gz/

├── clips/

│   ├── *.mp3 files

|__ dev.tsv

|__ invalidated.tsv

|__ other.tsv

|__ test.tsv

|__ train.tsv

|__ validated.tsv

|__ reported.tsv (as of Corpus 5.0)

字段

tsv 文件的每一行代表一个音频片段，并包含以下信息：

client_id - 特定用户的哈希 UUID

path - 音频文件的相对路径

文本 - 音频的假定转录

up_votes - 音频与文本相符的人的数量

down_votes - 音频与文本不匹配的人的数量

age -- 说话人的年龄

gender - 说话人的性别

accent - 说话人的口音

segment - 如果句子属于自定义数据集的片段，它将被列在这里

浏览 24

点赞

收藏

分享

举报

评论

图片

表情

OpenAI-WhisperOpenAI 开源的语音识别系统

Whisper 是 OpenAI 开源的自动语音识别（ASR，Automatic Speech Re

Google-LyraGoogle 开源的语音编解码器

Lyra 是一种高质量、低比特率的语音编解码器，即使在最慢的网络上也可以进行语音通信。为此，它应用了

OpenAI-WhisperOpenAI 开源的语音识别系统

Whisper是OpenAI开源的自动语音识别（ASR，AutomaticSpeechRecognition）系统，OpenAI通过从网络上收集了68万小时的多语言（98种语言）和多任务（multit

Google-LyraGoogle 开源的语音编解码器

Lyra 是一种高质量、低比特率的语音编解码器，即使在最慢的网络上也可以进行语音通信。为此，它应用了传统的编解码器技术，同时利用机器学习(ML)的进步和在数千小时数据上训练的模型来创建压缩和传输语音信

Steel Bank Common Lisp开源的Common Lisp 编译器

Steel Bank Common Lisp (SBCL) 源自于 CMUCL, 是一种高性能的Co

Steel Bank Common Lisp开源的Common Lisp 编译器

SteelBankCommonLisp(SBCL)源自于CMUCL,是一种高性能的CommonLisp编译器。它是开源/免费软件，采用自由许可。除了ANSICommonLisp的编译器和运行系统，它提

AliSQL开源数据库

AliSQL是基于MySQL官方版本的一个分支，由阿里云数据库团队维护，目前也应用于阿里巴巴集团业务

Affinity开源数据库

Affinity改名为AffinityNG，是VMware发布的开源数据库Affinity！Affinity数据库支持事务并且具有非常灵活的数据模型，作为一个非关系型数据库支持一种类似标准SQL的Pa

Affinity开源数据库

Affinity 改名为 AffinityNG，是 VMware 发布的开源数据库Affinity！

mycroft-core开源语音助手

Mycroft 是一个开源语音助手入门首先获取系统上的代码，最简单的方法是通过 git（ git 安

点赞

收藏

分享

举报