搜索
下载APP
VLE视觉-语言多模态预训练模型
认领
关注
0
粉丝
VLE (Vision-Language Encoder) 是一种基于预训练文本和图像编码器的图像-文本多模态理解模型,可应用于如视觉问答、图像-文本
知识
简介
VLE (Vision-Language Encoder) 是一种基于预训练文本和图像编码器的图像-文本多模态理解模型,可应用于如视觉问答、图像-文本检索等多模态判别任务。特别地,在对语言理解和推理能力有更强要求的视觉常识推理(VCR)任务中,VLE取得了公开模型中的最佳效果。在线演示地址:http...
更多
其它信息
授权协议
Apache-2.0
开发语言
Python
操作系统
跨平台
软件类型
开源软件
所属分类
神经网络/人工智能、 机器学习/深度学习
开源组织
无
地区
国产
适用人群
未知
时光轴
里程碑
1
LOG
0
2023
09-26
轻识收录
打卡
我要打卡
我要打卡
评价
0.0
(满分 10 分)
0 个评分
10分
什么是点评分
图片
表情
视频
评价
全部评价( 0)
推荐率 100%
推荐
VisualGLM-6B多模态对话语言模型
VisualGLM-6B多模态对话语言模型
0
鹏程·盘古α中文预训练语言模型
鹏程·盘古α是业界首个2000亿参数以中文为核心的预训练生成语言模型,目前开源了两个版本:鹏程·盘古
鹏程·盘古α中文预训练语言模型
鹏程·盘古α是业界首个2000亿参数以中文为核心的预训练生成语言模型,目前开源了两个版本:鹏程·盘古α和鹏程·盘古α增强版,并支持NPU和GPU两个版本,支持丰富的场景应用,在知识问答、知识检索、知识
VisualGLM-6B多模态对话语言模型
VisualGLM-6B是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于ChatGLM-6B,具有62亿参数;图像部分通过训练BLIP2-Qformer构建起视觉模型与语言模型的桥
mPLUG-Owl多模态大语言模型
阿里达摩院提出的多模态GPT的模型:mPLUG-Owl,基于 mPLUG 模块化的多模态大语言模型。
Chinese BERT中文预训练语言模型
在自然语言处理领域中,预训练语言模型(Pre-trained Language Models)已成为
mPLUG-Owl多模态大语言模型
阿里达摩院提出的多模态GPT的模型:mPLUG-Owl,基于 mPLUG 模块化的多模态大语言模型。它不仅能理解推理文本的内容,还可以理解视觉信息,并且具备优秀的跨模态对齐能力。论文:https://
Chinese BERT中文预训练语言模型
在自然语言处理领域中,预训练语言模型(Pre-trainedLanguageModels)已成为非常重要的基础技术。为了进一步促进中文信息处理的研究发展,我们发布了基于全词遮罩(WholeWordMa
悟道双语多模态大语言模型
“悟道”是双语多模态预训练模型,规模达到 1.75 万亿参数。项目现有 7 个开源模型成果,模型参数
YaLM 100B千亿参数预训练语言模型
YaLM 100B是一个类似 GPT 的神经网络,用于生成和处理文本。该模型利用了 1000 亿个参
10分