【CVPR2022】UniVIP:自监督视觉预训练的统一框架数据派THU共 733字,需浏览 2分钟 ·2022-03-19 00:11 来源:专知本文为论文,建议阅读5分钟我们提出了统一自监督视觉预训练(UniVIP)论文标题:UniVIP: A Unified Framework for Self-Supervised Visual Pre-training论文链接:https://arxiv.org/abs/2203.06965作者单位:中国科学院自动化研究所 & 商汤科技 & 南洋理工大学自监督学习 (SSL) 有望利用大量未标记的数据。然而,流行的 SSL 方法的成功仅限于像 ImageNet 中的单中心对象图像,并且忽略了场景和实例之间的相关性,以及场景中实例的语义差异。为了解决上述问题,我们提出了统一自监督视觉预训练(UniVIP),这是一种新颖的自监督框架,用于在单中心对象或非标志性数据集上学习通用视觉表示。该框架考虑了三个层次的表示学习:1)场景-场景的相似性,2)场景-实例的相关性,3)实例的判别。在学习过程中,我们采用最优传输算法来自动测量实例的区分度。大量实验表明,在非标志性 COCO 上预训练的 UniVIP 在图像分类、半监督学习、对象检测和分割等各种下游任务上实现了最先进的传输性能。此外,我们的方法还可以利用 ImageNet 等单中心对象数据集,并且在线性探测中使用相同的预训练 epoch 时比 BYOL 高 2.5%,并且在 COCO 数据集上超越了当前的自监督对象检测方法,证明了它的普遍性和潜在性能。 浏览 32点赞 评论 收藏 分享 手机扫一扫分享分享 举报 评论图片表情视频评价全部评论推荐 多个任务超越moco v3!OPERA:监督学习和自监督统一的框架!AI算法与图像处理0计算机视觉(CV)预训练模型小白学视觉0视觉-语言预训练入门指南Datawhale0ICCV2023|目标检测新突破!AlignDet:支持各类检测器完全自监督预训练的框架AI人工智能初学者0OpenAI:基于对比学习的无监督预训练Python中文社区0这个预训练不简单!BLIP:统一视觉-语言理解和生成任务公众号CVer0预训练卷积超越预训练Transformer?机器学习算法工程师0MEA:视觉无监督训练新范式机器学习算法工程师0自训练和半监督学习介绍小白学视觉0VLE视觉-语言多模态预训练模型VLE (Vision-Language Encoder) 是一种基于预训练文本和图像编码器的图像-点赞 评论 收藏 分享 手机扫一扫分享分享 举报