SALMONN听觉大语言模型

联合创作 · 2023-09-26 00:03

SALMONN 是清华大学电子工程系与字节跳动火山语音团队联手开源的全新听觉大语言模型。

SALMONN 支持语音、音频以及音乐输入，它可以感知和理解不同类型的音频内容输入，并具备多语言语音识别和翻译以及语音推理等功能。

SALMONN 与传统的语音识别、音频字幕生成等语音和音频处理任务相比具备更好的通用性，同时可以准确地听从使用者的指令。

目前 SALMONN 能够胜任英语语音识别、英语到中文的语音翻译、情感识别、音频字幕生成、音乐描述等重要的语音和音频任务，同时又涌现出多种在模型训练中没有专门学习过的多语言和跨模态能力，涵盖非英语语音识别、英语到（中文以外）其他语言的语音翻译、对语音内容的摘要和关键词提取、基于音频的故事生成、音频问答、语音和音频联合推理等任务。

Demo 链接：https://bytedance.github.io/SALMONN/

浏览 36

点赞

收藏

分享

举报

评论

图片

表情

OPT-175B大语言模型

OPT-175B是Meta开源的大语言模型，拥有超过1750亿个参数——和GPT-3相当。相比GPT-3，OPT-175B的优势在于它完全免费。Meta还公布了代码库、开发过程日志、数据、研究论文和其

OPT-175B大语言模型

OPT-175B 是 Meta 开源的大语言模型，拥有超过 1750 亿个参数——和 GPT-3 相

LLaMA大语言模型

LLaMA 语言模型全称为 "Large Language Model Meta AI"，是 Met

LLaMA大语言模型

LLaMA语言模型全称为"LargeLanguageModelMetaAI"，是Meta的全新大型语言模型（LLM），这是一个模型系列，根据参数规模进行了划分（分为70亿、130亿、330亿和650亿

RedPajama大语言模型

RedPajama项目旨在创建一套领先的全开源大语言模型。目前，该项目已完成了第一步，成功复制了LLaMA训练数据集超过1.2万亿个数据token。该项目由Together、Ontocord.ai、E

MOSS对话大语言模型

MOSS是一个支持中英双语和多种插件的开源对话语言模型，moss-moon系列模型具有160亿参数，在FP16精度下可在单张A100/A800或两张3090显卡运行，在INT4/8精度下可在单张309

DB-GPT数据库大语言模型

DB-GPT数据库大语言模型

MOSS对话大语言模型

MOSS是一个支持中英双语和多种插件的开源对话语言模型，moss-moon系列模型具有160亿参数，

DB-GPT数据库大语言模型

DB-GPT是一个开源的以数据库为基础的GPT实验项目，使用本地化的GPT大模型与数据和环境进行交互，无数据泄露风险，100%私密，100%安全。DB-GPT为所有以数据库为基础的场景，构建了一套完整

ChatYuan对话语言大模型

ChatYuan对话语言大模型

点赞

收藏

分享

举报