mPLUG-Owl多模态大语言模型
阿里达摩院提出的多模态GPT的模型:mPLUG-Owl,基于 mPLUG 模块化的多模态大语言模型。它不仅能理解推理文本的内容,还可以理解视觉信息,并且具备优秀的跨模态对齐能力。
示例
亮点特色
- 一种面向多模态语言模型的模块化的训练范式。
- 能学习与语言空间相适应的视觉知识,并支持在多模态场景下进行多轮对话。
- 涌现多图关系理解,场景文本理解和基于视觉的文档理解等能力。
- 提出了针对视觉相关指令的测评集OwlEval,用以评估多模态语言模型的对带有视觉信息上下文的理解能力。
- 我们在模块化上的一些探索:
- 即将发布
- 在HuggingFace Hub上发布。
- 多语言支持(中文、日文等)。
- 在多图片/视频数据上训练的模型
- Huggingface 在线 Demo (done)
- 指令微调代码(done)
- 视觉相关指令的测评集OwlEval(done)
预训练参数
Model | Phase | Download link |
---|---|---|
mPLUG-Owl 7B | Pre-training | 下载链接 |
mPLUG-Owl 7B | Instruction tuning | 下载链接 |
Tokenizer model | N/A | 下载链接 |
评论
悟道双语多模态大语言模型
“悟道”是双语多模态预训练模型,规模达到1.75万亿参数。项目现有7个开源模型成果,模型参数文件需到悟道平台进行下载申请。图文类CogViewCogView参数量为40亿,模型可实现文本生成图像,经过
悟道双语多模态大语言模型
0
多模态视觉语言模型 Mini-Gemini
大家好,又见面了,我是 GitHub 精选君!背景介绍随着大数据和人工智能技术的快速发展,多模态视觉语言模型(Multi-modality Vision Language Models)已成为近年来研究的热点。这类模型通过融合图像和文本信息,能够更好地理解和生成复杂的视觉语言内容,广泛应用于图像标注
开源你我他
0
VisualGLM-6B多模态对话语言模型
VisualGLM-6B是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于ChatGLM-6B,具有62亿参数;图像部分通过训练BLIP2-Qformer构建起视觉模型与语言模型的桥
VisualGLM-6B多模态对话语言模型
0
VLE视觉-语言多模态预训练模型
VLE (Vision-Language Encoder)是一种基于预训练文本和图像编码器的图像-文本多模态理解模型,可应用于如视觉问答、图像-文本检索等多模态判别任务。特别地,在对语言理解和推理能力
VLE视觉-语言多模态预训练模型
0