VLE视觉-语言多模态预训练模型-主页-技术圈

VLE视觉-语言多模态预训练模型

0获赞0粉丝0关注

VLE (Vision-Language Encoder) 是一种基于预训练文本和图像编码器的图像-文本多模态理解模型，可应用于如视觉问答、图像-文本