VLE视觉-语言多模态预训练模型

0获赞0粉丝0关注
VLE (Vision-Language Encoder) 是一种基于预训练文本和图像编码器的图像-文本多模态理解模型,可应用于如视觉问答、图像-文本
加载更多