悟道双语多模态大语言模型

联合创作 · 2023-09-25 23:25

“悟道”是双语多模态预训练模型，规模达到 1.75 万亿参数。项目现有 7 个开源模型成果，模型参数文件需到悟道平台进行下载申请。

图文类

CogView

CogView参数量为40亿，模型可实现文本生成图像，经过微调后可实现国画、油画、水彩画、轮廓画等图像生成。目前在公认MS COCO文生图任务上取得了超过OpenAI DALL·E的成绩，获得世界第一。

BriVL

BriVL (Bridging Vision and Language Model) 是首个中文通用图文多模态大规模预训练模型。BriVL模型在图文检索任务上有着优异的效果，超过了同期其他常见的多模态预训练模型（例如UNITER、CLIP）。

文本类

GLM

GLM是以英文为核心的预训练语言模型系列，基于新的预训练范式实现单一模型在语言理解和生成任务方面取得了最佳结果，并且超过了在相同数据量进行训练的常见预训练模型（例如BERT，RoBERTa和T5），目前已开源1.1亿、3.35亿、4.10亿、5.15亿、100亿参数规模的模型。

CPM

CPM系列模型是兼顾理解与生成能力的预训练语言模型系列，涵盖中文、中英双语多类模型，目前已开源26亿、110亿和1980亿参数规模的模型。

Transformer-XL

Transformer-XL是以中文为核心的预训练语言生成模型，参数规模为29亿，目前可支持包括文章生成、智能作诗、评论/摘要生成等主流NLG任务。

EVA

EVA是一个开放领域的中文对话预训练模型，是目前最大的汉语对话模型，参数量达到28亿，并且在包括不同领域14亿汉语的悟道对话数据集（WDC）上进行预训练。

Lawformer

Lawformer是世界首创法律领域长文本中文预训练模型，参数规模达到1亿。

蛋白质类

ProtTrans

ProtTrans是国内最大的蛋白质预训练模型，参数总量达到30亿。

浏览 32

点赞

收藏

分享

举报

评论

图片

表情

mPLUG-Owl多模态大语言模型

阿里达摩院提出的多模态GPT的模型：mPLUG-Owl，基于 mPLUG 模块化的多模态大语言模型。

mPLUG-Owl多模态大语言模型

阿里达摩院提出的多模态GPT的模型：mPLUG-Owl，基于 mPLUG 模块化的多模态大语言模型。它不仅能理解推理文本的内容，还可以理解视觉信息，并且具备优秀的跨模态对齐能力。论文：https://

VisualGLM-6B多模态对话语言模型

VisualGLM-6B多模态对话语言模型

VisualGLM-6B多模态对话语言模型

VisualGLM-6B是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于ChatGLM-6B，具有62亿参数；图像部分通过训练BLIP2-Qformer构建起视觉模型与语言模型的桥

多模态视觉语言模型 Mini-Gemini

大家好，又见面了，我是 GitHub 精选君！背景介绍随着大数据和人工智能技术的快速发展，多模态视觉语言模型（Multi-modality Vision Language Models）已成为近年来研究的热点。这类模型通过融合图像和文本信息，能够更好地理解和生成复杂的视觉语言内容，广泛应用于图像标注

CPM-Bee中英文双语大语言模型

CPM-Bee是一个完全开源、允许商用的百亿参数中英文基座模型。它采用Transformer自回归架构（auto-regressive），使用万亿级高质量语料进行预训练，拥有强大的基础能力。CPM-B

VLE视觉-语言多模态预训练模型

VLE (Vision-Language Encoder) 是一种基于预训练文本和图像编码器的图像-

CPM-Bee中英文双语大语言模型

CPM-Bee 是一个完全开源、允许商用的百亿参数中英文基座模型。它采用 Transformer

【MM-LLM系列】Chinese LLaVA 开源中英文双语视觉-语言多模态模型

VLE视觉-语言多模态预训练模型

VLE (Vision-Language Encoder)是一种基于预训练文本和图像编码器的图像-文本多模态理解模型，可应用于如视觉问答、图像-文本检索等多模态判别任务。特别地，在对语言理解和推理能力

点赞

收藏

分享

举报