【南洋理工-CVPR2022】视觉语言模型的条件提示学习数据派THU关注共 724字,需浏览 2分钟 ·2022-03-19 00:13 来源:专知本文为论文,建议阅读5分钟一种名为上下文优化(CoOp)的方法将提示学习的概念引入视觉领域,以适应预训练的视觉语言模型。随着功能强大的预训练视觉语言模型(如CLIP)的兴起,研究如何使这些模型适应下游数据集变得非常必要。最近提出的一种名为上下文优化(CoOp)的方法将提示学习的概念引入视觉领域,以适应预训练的视觉语言模型。具体来说,CoOp将提示中的上下文单词转换为一组可学习的向量,并且仅使用少量标记的图像进行学习,可以在经过大量调整的手动提示中实现巨大的改进。在我们的研究中,我们确定了CoOp的一个关键问题: 学习的上下文不能泛化到同一数据集内更广泛的不可见类,这表明在训练期间观察到的CoOp基类过拟合。为了解决这个问题,我们提出了条件上下文优化(CoCoOp),它通过进一步学习一个轻量级神经网络来为每幅图像生成一个输入条件标记(向量)来扩展CoCoOp。与CoOp的静态提示相比,我们的动态提示适应每个实例,因此对类迁移不那么敏感。大量的实验表明,对于不可见的类,CoCoOp的泛化效果要比CoOp好得多,甚至在单个数据集之外还显示出很好的可迁移性; 具有较强的域泛化性能。代码可在https://github.com/ KaiyangZhou/CoOphttps://www.zhuanzhi.ai/paper/8fc04028caefdfdb427ca26bc1005d6e 浏览 40点赞 评论 收藏 分享 手机扫一扫分享分享 举报 评论图片表情视频评价全部评论推荐 多模态视觉语言模型 Mini-Gemini大家好,又见面了,我是 GitHub 精选君!背景介绍随着大数据和人工智能技术的快速发展,多模态视觉语言模型(Multi-modality Vision Language Models)已成为近年来研究的热点。这类模型通过融合图像和文本信息,能够更好地理解和生成复杂的视觉语言内容,广泛应用于图像标注视觉-语言(VL)智能:任务、表征学习和大型模型新机器视觉0基于视觉模型强化学习的通用机器人小白学视觉0强化学习与视觉语言模型之间的碰撞,UC伯克利提出语言奖励调节LAMP框架大数据文摘0CVPR2022:计算机视觉中长尾数据平衡对比学习GiantPandaCV0IDEFICS 简介: 最先进视觉语言模型的开源复现DayNightStudy0VLE视觉-语言多模态预训练模型VLE (Vision-Language Encoder) 是一种基于预训练文本和图像编码器的图像-通义千问-VL大规模视觉语言模型通义千问-VL (Qwen-VL)是阿里云研发的大规模视觉语言模型(Large Vision LanVLE视觉-语言多模态预训练模型VLE (Vision-Language Encoder)是一种基于预训练文本和图像编码器的图像-文本多模态理解模型,可应用于如视觉问答、图像-文本检索等多模态判别任务。特别地,在对语言理解和推理能力通义千问-VL大规模视觉语言模型通义千问-VL(Qwen-VL)是阿里云研发的大规模视觉语言模型(LargeVisionLanguageModel,LVLM)。Qwen-VL可以以图像、文本、检测框作为输入,并以文本和检测框作为输出点赞 评论 收藏 分享 手机扫一扫分享分享 举报