VisualGLM-6B多模态对话语言模型

联合创作 · 2023-09-25 23:34

VisualGLM-6B 是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于 ChatGLM-6B，具有 62 亿参数；图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁，整体模型共 78 亿参数。

VisualGLM-6B 依靠来自于 CogView 数据集的 30M 高质量中文图文对，与 300M 经过筛选的英文图文对进行预训练，中英文权重相同。该训练方式较好地将视觉信息对齐到 ChatGLM 的语义空间；之后的微调阶段，模型在长视觉问答数据上训练，以生成符合人类偏好的答案。

浏览 35

点赞

收藏

分享

举报

评论

图片

表情

多模态视觉语言模型 Mini-Gemini

大家好，又见面了，我是 GitHub 精选君！背景介绍随着大数据和人工智能技术的快速发展，多模态视觉语言模型（Multi-modality Vision Language Models）已成为近年来研究的热点。这类模型通过融合图像和文本信息，能够更好地理解和生成复杂的视觉语言内容，广泛应用于图像标注

mPLUG-Owl多模态大语言模型

阿里达摩院提出的多模态GPT的模型：mPLUG-Owl，基于 mPLUG 模块化的多模态大语言模型。它不仅能理解推理文本的内容，还可以理解视觉信息，并且具备优秀的跨模态对齐能力。论文：https://

mPLUG-Owl多模态大语言模型

阿里达摩院提出的多模态GPT的模型：mPLUG-Owl，基于 mPLUG 模块化的多模态大语言模型。

悟道双语多模态大语言模型

“悟道”是双语多模态预训练模型，规模达到1.75万亿参数。项目现有7个开源模型成果，模型参数文件需到悟道平台进行下载申请。图文类CogViewCogView参数量为40亿，模型可实现文本生成图像，经过

悟道双语多模态大语言模型

“悟道”是双语多模态预训练模型，规模达到 1.75 万亿参数。项目现有 7 个开源模型成果，模型参数

VLE视觉-语言多模态预训练模型

VLE (Vision-Language Encoder)是一种基于预训练文本和图像编码器的图像-文本多模态理解模型，可应用于如视觉问答、图像-文本检索等多模态判别任务。特别地，在对语言理解和推理能力

VLE视觉-语言多模态预训练模型

VLE (Vision-Language Encoder) 是一种基于预训练文本和图像编码器的图像-

MOSS对话大语言模型

MOSS是一个支持中英双语和多种插件的开源对话语言模型，moss-moon系列模型具有160亿参数，在FP16精度下可在单张A100/A800或两张3090显卡运行，在INT4/8精度下可在单张309

ImageBind多模态 AI 模型

ImageBind 是支持绑定来自六种不同模态（图像、文本、音频、深度、温度和 IMU 数据）的信息

Macaw-LLM多模态语言建模

Macaw-LLM：具有图像、视频、音频和文本集成的多模态语言建模Macaw-LLM是一项探索性的尝试，它通过无缝结合图像、视频、音频和文本数据开创了多模式语言建模，建立在CLIP、Whisper和L

点赞

收藏

分享

举报