VisualGLM-6B多模态对话语言模型
VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共 78 亿参数。
VisualGLM-6B 依靠来自于 CogView 数据集的 30M 高质量中文图文对,与 300M 经过筛选的英文图文对进行预训练,中英文权重相同。该训练方式较好地将视觉信息对齐到 ChatGLM 的语义空间;之后的微调阶段,模型在长视觉问答数据上训练,以生成符合人类偏好的答案。
评论
多模态视觉语言模型 Mini-Gemini
大家好,又见面了,我是 GitHub 精选君!背景介绍随着大数据和人工智能技术的快速发展,多模态视觉语言模型(Multi-modality Vision Language Models)已成为近年来研究的热点。这类模型通过融合图像和文本信息,能够更好地理解和生成复杂的视觉语言内容,广泛应用于图像标注
开源你我他
0
mPLUG-Owl多模态大语言模型
阿里达摩院提出的多模态GPT的模型:mPLUG-Owl,基于 mPLUG 模块化的多模态大语言模型。它不仅能理解推理文本的内容,还可以理解视觉信息,并且具备优秀的跨模态对齐能力。论文:https://
mPLUG-Owl多模态大语言模型
0
悟道双语多模态大语言模型
“悟道”是双语多模态预训练模型,规模达到1.75万亿参数。项目现有7个开源模型成果,模型参数文件需到悟道平台进行下载申请。图文类CogViewCogView参数量为40亿,模型可实现文本生成图像,经过
悟道双语多模态大语言模型
0
VLE视觉-语言多模态预训练模型
VLE (Vision-Language Encoder)是一种基于预训练文本和图像编码器的图像-文本多模态理解模型,可应用于如视觉问答、图像-文本检索等多模态判别任务。特别地,在对语言理解和推理能力
VLE视觉-语言多模态预训练模型
0
ChatYuan对话语言大模型
ChatYuan是一个支持中英双语的功能型对话语言大模型。ChatYuan-large-v2使用了和v1版本相同的技术方案,在微调数据、人类反馈强化学习、思维链等方面进行了优化。ChatYuan-la
ChatYuan对话语言大模型
0