AudioGPT基于 LLM 的音频助手

联合创作 · 2023-09-29 19:45

AudioGPT 是一个借助大语言模型 (LLM) 处理音频的工具。


AudioGPT 在收到用户请求时使用 ChatGPT 进行任务分析,根据语音基础模型中可用的功能描述选择模型,用选定的语音基础模型执行用户指令,并根据执行结果汇总响应。借助 ChatGPT 强大的语言能力和众多的语音基础模型,AudioGPT 能够完成几乎所有语音领域的任务。


具体来说,AudioGPT 运行过程可以分成 4 个阶段:模态转化、任务分析、模型分配和回复生成。



AudioGPT 核心功能



  • 生成音乐

  • 背景音效

  • 音频生成字幕

  • 文字生成音频

  • 文字生成音频并模拟声音

  • 根据图片生成音频

  • 对音频进行inpaint(局部屏蔽)

  • 根据音频和人脸照片合成视频

  • 检测音频中的事件,以及开始和结束时间

  • 单声道变双声道

  • 通过文本描述检测特定声音发生的时间

  • 抽取某种声音

  • 去除背景噪音

  • 多人混合声分离出单人声音

  • 语音翻译

浏览 33
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报