mPLUG-Owl多模态大语言模型
阿里达摩院提出的多模态GPT的模型:mPLUG-Owl,基于 mPLUG 模块化的多模态大语言模型。它不仅能理解推理文本的内容,还可以理解视觉信息,并且具备优秀的跨模态对齐能力。
示例
亮点特色
- 一种面向多模态语言模型的模块化的训练范式。
 - 能学习与语言空间相适应的视觉知识,并支持在多模态场景下进行多轮对话。
 - 涌现多图关系理解,场景文本理解和基于视觉的文档理解等能力。
 - 提出了针对视觉相关指令的测评集OwlEval,用以评估多模态语言模型的对带有视觉信息上下文的理解能力。
 - 我们在模块化上的一些探索:
 - 即将发布 
  
- 在HuggingFace Hub上发布。
 - 多语言支持(中文、日文等)。
 - 在多图片/视频数据上训练的模型
 - Huggingface 在线 Demo (done)
 - 指令微调代码(done)
 - 视觉相关指令的测评集OwlEval(done)
 
 
预训练参数
| Model | Phase | Download link | 
|---|---|---|
| mPLUG-Owl 7B | Pre-training | 下载链接 | 
| mPLUG-Owl 7B | Instruction tuning | 下载链接 | 
| Tokenizer model | N/A | 下载链接 | 
评论
