mPLUG-Owl多模态大语言模型

联合创作 · 2023-09-26 06:53

阿里达摩院提出的多模态GPT的模型：mPLUG-Owl，基于 mPLUG 模块化的多模态大语言模型。它不仅能理解推理文本的内容，还可以理解视觉信息，并且具备优秀的跨模态对齐能力。

论文：https://arxiv.org/abs/2304.14178
DEMO：https://huggingface.co/spaces/MAGAer13/mPLUG-Owl

示例

亮点特色

一种面向多模态语言模型的模块化的训练范式。
能学习与语言空间相适应的视觉知识，并支持在多模态场景下进行多轮对话。
涌现多图关系理解，场景文本理解和基于视觉的文档理解等能力。
提出了针对视觉相关指令的测评集OwlEval，用以评估多模态语言模型的对带有视觉信息上下文的理解能力。
我们在模块化上的一些探索:
- E2E-VLP, mPLUG 和 mPLUG-2, 分别被ACL 2021, EMNLP 2022 and ICML 2023接收。
- mPLUG 首次在VQA上超越人类。
即将发布
- 在HuggingFace Hub上发布。
- 多语言支持（中文、日文等）。
- 在多图片/视频数据上训练的模型
- Huggingface 在线 Demo （done）
- 指令微调代码（done）
- 视觉相关指令的测评集OwlEval（done）

预训练参数

Model	Phase	Download link
mPLUG-Owl 7B	Pre-training	下载链接
mPLUG-Owl 7B	Instruction tuning	下载链接
Tokenizer model	N/A	下载链接

浏览 32

点赞

收藏

分享

举报

评论

图片

表情

悟道双语多模态大语言模型

“悟道”是双语多模态预训练模型，规模达到1.75万亿参数。项目现有7个开源模型成果，模型参数文件需到悟道平台进行下载申请。图文类CogViewCogView参数量为40亿，模型可实现文本生成图像，经过

悟道双语多模态大语言模型

“悟道”是双语多模态预训练模型，规模达到 1.75 万亿参数。项目现有 7 个开源模型成果，模型参数

多模态视觉语言模型 Mini-Gemini

大家好，又见面了，我是 GitHub 精选君！背景介绍随着大数据和人工智能技术的快速发展，多模态视觉语言模型（Multi-modality Vision Language Models）已成为近年来研究的热点。这类模型通过融合图像和文本信息，能够更好地理解和生成复杂的视觉语言内容，广泛应用于图像标注

VisualGLM-6B多模态对话语言模型

VisualGLM-6B是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于ChatGLM-6B，具有62亿参数；图像部分通过训练BLIP2-Qformer构建起视觉模型与语言模型的桥

VisualGLM-6B多模态对话语言模型

VisualGLM-6B多模态对话语言模型

VLE视觉-语言多模态预训练模型

VLE (Vision-Language Encoder)是一种基于预训练文本和图像编码器的图像-文本多模态理解模型，可应用于如视觉问答、图像-文本检索等多模态判别任务。特别地，在对语言理解和推理能力

VLE视觉-语言多模态预训练模型

VLE (Vision-Language Encoder) 是一种基于预训练文本和图像编码器的图像-

ImageBind多模态 AI 模型

ImageBind 是支持绑定来自六种不同模态（图像、文本、音频、深度、温度和 IMU 数据）的信息

Macaw-LLM多模态语言建模

Macaw-LLM：具有图像、视频、音频和文本集成的多模态语言建模Macaw-LLM是一项探索性的尝试，它通过无缝结合图像、视频、音频和文本数据开创了多模式语言建模，建立在CLIP、Whisper和L

Macaw-LLM多模态语言建模

Macaw-LLM：具有图像、视频、音频和文本集成的多模态语言建模Macaw-LLM 是一项探索性的

点赞

收藏

分享

举报