VLE视觉-语言多模态预训练模型认领

0粉丝

VLE (Vision-Language Encoder) 是一种基于预训练文本和图像编码器的图像-文本多模态理解模型，可应用于如视觉问答、图像-文本检索等多模态判别任务。特别地，在对语言理解和推理能力有更强要求的视觉常识推理（VCR）任务中，VLE取得了公开模型中的最佳效果。在线演示地址：http

简介

VLE (Vision-Language Encoder) 是一种基于预训练文本和图像编码器的图像-文本多模态理解模型，可应用于如视觉问答、图像-文本检索等多模态判别任务。特别地，在对语言理解和推理能力有更强要求的视觉常识推理（VCR）任务中，VLE取得了公开模型中的最佳效果。在线演示地址：http... 更多

技术信息

开源协议

Apache-2.0

开发语言

Python

操作系统

跨平台

软件类型

开源软件

所属分类

神经网络/人工智能、机器学习/深度学习

开源组织

无

地区

国产

适用人群

未知

时光轴

里程碑1

LOG0

2023

09-26

轻识收录

打卡

评价

0.0（满分 10 分）0 个评分

什么是点评分

图片

表情

全部评价( 0)

推荐率 100%

推荐

VisualGLM-6B多模态对话语言模型

VisualGLM-6B多模态对话语言模型

鹏程·盘古α中文预训练语言模型

鹏程·盘古α是业界首个2000亿参数以中文为核心的预训练生成语言模型，目前开源了两个版本：鹏程·盘古

鹏程·盘古α中文预训练语言模型

鹏程·盘古α是业界首个2000亿参数以中文为核心的预训练生成语言模型，目前开源了两个版本：鹏程·盘古α和鹏程·盘古α增强版，并支持NPU和GPU两个版本，支持丰富的场景应用，在知识问答、知识检索、知识

VisualGLM-6B多模态对话语言模型

VisualGLM-6B是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于ChatGLM-6B，具有62亿参数；图像部分通过训练BLIP2-Qformer构建起视觉模型与语言模型的桥

mPLUG-Owl多模态大语言模型

阿里达摩院提出的多模态GPT的模型：mPLUG-Owl，基于 mPLUG 模块化的多模态大语言模型。

Chinese BERT中文预训练语言模型

在自然语言处理领域中，预训练语言模型（Pre-trained Language Models）已成为

mPLUG-Owl多模态大语言模型

阿里达摩院提出的多模态GPT的模型：mPLUG-Owl，基于 mPLUG 模块化的多模态大语言模型。它不仅能理解推理文本的内容，还可以理解视觉信息，并且具备优秀的跨模态对齐能力。论文：https://

Chinese BERT中文预训练语言模型

在自然语言处理领域中，预训练语言模型（Pre-trainedLanguageModels）已成为非常重要的基础技术。为了进一步促进中文信息处理的研究发展，我们发布了基于全词遮罩（WholeWordMa

悟道双语多模态大语言模型

“悟道”是双语多模态预训练模型，规模达到 1.75 万亿参数。项目现有 7 个开源模型成果，模型参数

YaLM 100B千亿参数预训练语言模型

YaLM 100B是一个类似 GPT 的神经网络，用于生成和处理文本。该模型利用了 1000 亿个参