VLE视觉-语言多模态预训练模型

0获赞0粉丝0关注
VLE (Vision-Language Encoder) 是一种基于预训练文本和图像编码器的图像-文本多模态理解模型,可应用于如视觉问答、图像-文本
简介
VLE (Vision-Language Encoder) 是一种基于预训练文本和图像编码器的图像-文本多模态理解模型,可应用于如视觉问答、图像-文本检索等多模态判别任务。特别地,在对语言理解和推理能力有更强要求的视觉常识推理(VCR)任务中,VLE取得了公开模型中的最佳效果。在线演示地址:http... 更多
其它信息
授权协议
Apache-2.0
开发语言
Python
操作系统
跨平台
软件类型
开源软件
所属分类
神经网络/人工智能、 机器学习/深度学习
开源组织
地区
国产
适用人群
未知
收录时间
2023-09-26

时光轴

里程碑1
LOG0
2023
2023-09
轻识收录
操作人操作信息操作时间
评价
0.0(满分 10 分)0 个评分
什么是点评分
图片
表情
推荐