【CVPR2022】UniVIP:自监督视觉预训练的统一框架

数据派THU

共 733字,需浏览 2分钟

 ·

2022-03-19 00:11


来源:专知

本文为论文,建议阅读5分钟

我们提出了统一自监督视觉预训练(UniVIP)


论文标题:UniVIP: A Unified Framework for Self-Supervised Visual Pre-training
论文链接:https://arxiv.org/abs/2203.06965
作者单位:中国科学院自动化研究所 & 商汤科技 & 南洋理工大学

自监督学习 (SSL) 有望利用大量未标记的数据。然而,流行的 SSL 方法的成功仅限于像 ImageNet 中的单中心对象图像,并且忽略了场景和实例之间的相关性,以及场景中实例的语义差异。为了解决上述问题,我们提出了统一自监督视觉预训练(UniVIP),这是一种新颖的自监督框架,用于在单中心对象或非标志性数据集上学习通用视觉表示。该框架考虑了三个层次的表示学习:1)场景-场景的相似性,2)场景-实例的相关性,3)实例的判别。在学习过程中,我们采用最优传输算法来自动测量实例的区分度。大量实验表明,在非标志性 COCO 上预训练的 UniVIP 在图像分类、半监督学习、对象检测和分割等各种下游任务上实现了最先进的传输性能。此外,我们的方法还可以利用 ImageNet 等单中心对象数据集,并且在线性探测中使用相同的预训练 epoch 时比 BYOL 高 2.5%,并且在 COCO 数据集上超越了当前的自监督对象检测方法,证明了它的普遍性和潜在性能。


浏览 32
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报