MMSAI 语音识别大模型

联合创作 · 2023-09-25 23:36

Massively Multilingual Speech (MMS) 是由 Meta 开源的一个 AI 语音识别模型。支持 1107 种语言的语音转文本和文本转语音,以及 4000 多种语言的语言识别。

MMS 项目将支持的语言数量增加了 10-40 倍,具体取决于任务。主要成分是一个新的数据集,该数据集基于对公开宗教文本的阅读,并有效地利用了自我监督学习。

项目团队构建了涵盖 1406 种语言的预训练 wav2vec 2.0 模型、1107 种语言的单一多语言自动语音识别模型、相同数量语言的语音合成模型,以及 4017 种语言的语言识别模型。实验表明,该多语言语音识别模型在 FLEURS 基准测试的 54 种语言上将 Whisper 的单词错误率降低了一半以上,同时在一小部分标记数据上进行了训练。

关于 MMS 所涵盖的语言的概述,可查看此处

预训练模型

Model Link
MMS-300M download
MMS-1B download

可以在此处找到微调预训练模型的示例命令。

微调模型

ASR

Model Languages Dataset Model Supported languages
MMS-1B:FL102 102 FLEURS download download
MMS-1B:L1107 1107 MMS-lab download download
MMS-1B-all 1162 MMS-lab + FLEURS
+ CV + VP + MLS
download download

TTS

  1. 下载 1107 种语言的 iso codes 列表。
  2. 找到目标语言的 iso code 并下载 checkpoint。每个文件夹包含 3 个文件:G_100000.pthconfig.jsonvocab.txt
# Examples:
wget https://dl.fbaipublicfiles.com/mms/tts/eng.tar.gz # English (eng)
wget https://dl.fbaipublicfiles.com/mms/tts/azj-script_latin.tar.gz # North Azerbaijani (azj-script_latin)

LID

# Languages Dataset Model Dictionary Supported languages
126 FLEURS + VL + MMS-lab-U + MMS-unlab download download download
256 FLEURS + VL + MMS-lab-U + MMS-unlab download download download
512 FLEURS + VL + MMS-lab-U + MMS-unlab download download download
1024 FLEURS + VL + MMS-lab-U + MMS-unlab download download download
2048 FLEURS + VL + MMS-lab-U + MMS-unlab download download download
4017 FLEURS + VL + MMS-lab-U + MMS-unlab download download download
浏览 4
点赞
评论
收藏
分享

手机扫一扫分享

编辑
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑
举报