DeepMind自监督：ResNets首次反超监督学习？！-技术圈

新智元报道

编辑：好困袁榭

【新智元导读】近日，DeepMind又整了个新活：RELIC第二代！首次用自监督学习实现了对有监督学习的超越。莫非，今后真的不用标注数据了？

机器学习中，伴随着更多高质量的数据标签，有监督学习模型的性能也会提高。然而，获取大量带标注数据的代价十分高昂。

按照AI行业的膨胀速度，如果每个数据点都得标记，「人工智能=有多少人工就有多智能」的刻薄笑话很可能会成为现实。

不过一直以来，表征学习、自监督学习等办法的「下游效能」至今未能超出有监督学习的表现。

2022年1月，DeepMind与牛津大学、图灵研究院针对此难题，联合研发出了RELICv2，证明了在ImageNet中使用相同网络架构进行同等条件下的对比，无标注训练数据集的效果可以超过有监督学习。

其中，RELICv2使用ResNet50时在ImageNet上实现了77.1%的top-1准确率，而更大的ResNet模型则带来了80.6%的top-1准确率，以较大的优势超越了此前的自监督方法。

为达到上述效果，研究者使用2021年问世的的「以因果预测机制进行表征学习」（缩写RELIC）的架构搭建模型。

相较于RELIC，RELICv2多了一个可以选择相似点和不同点的策略，相似点可以设计不变性的目标函数，不同点可以设计对比性质的目标函数。RELIC学习出的表征会更接近于底层数据的几何性质。这一特性使得这种方式学到的表征能更好地移用在下游任务上。

结果显示，RELICv2不仅优于其他竞争方法，而且是第一个在横跨1x，2x，和4x的ImageNet编码器配置中持续优于监督学习的自监督方法。

此外，在使用ResNet101、ResNet152、ResNet200等大型ResNet架构的情况下，RELICv2也超过了有监督基线模型的表现。

最后，尽管使用的是ResNet的架构，RELICv2也表现出了可以与SOTA的Transformer模型相提并论的性能。

RELICv2和视觉Transformer模型之间的ImageNet top-1准确率比较，Swin代表全监督的Transformer基线

值得注意的是，虽然另有其它研究的结果也超过了这一基线，但它们使用了不同的神经网络架构，所以并非同等条件下的对比。

方法

此前，RELIC引入了一个不变性损失，定义为锚点xi和它的一个正样本x+i之间的Kullback-Leibler分歧：

其中，梯度停止算子sg[-]不会影响KL-分歧的计算。

与RELIC类似，RELICv2的目标是最小化对比负对数似然和不变损失的组合。

对于给定的mini-batch，损失函数为：

其中，α和β是标量的超参，用于权衡对比和不变损失对整体目标的相对重要性。

RELICv2与RELIC的不同之处在于如何选择适当的正负样本和目标函数两部分之间的组合关系。

增强方法方面，除了标准的SimCLR，作者还应用了两种策略：不同大小的随机裁剪和显著性背景移除。

负样本的采样方面，作者从所有的负样本里随机采样，从而缓解假阴性的问题，也就是从同一个类别里采样到负样本对的问题。


for x in batch: # load a batch of B samples  # Apply saliency mask and remove background  x_m = remove_background(x)  for i in range(num_large_crops):    # Select either original or background-removed    # Image with probability p_m    x = Bernoulli(p_m) ? x_m : x    # Do large random crop and augment    xl_i = aug(crop_l(x))        ol_i = f_o(xl_i)    tl_i = g_t(xl_i)
  for i in range(num_small_crops):    # Do small random crop and augment    xs_i = aug(crop_s(x))    # Small crops only go through the online network    os_i = f_o(xs_i)      loss = 0  # Compute loss between all pairs of large crops  for i in range(num_large_crops):    for j in range(num_large_crops):      loss += loss_relicv2(ol_i, tl_j, n_e)  # Compute loss between small crops and large crops  for i in range(num_small_crops):    for j in range(num_large_crops):      loss += loss_relicv2(os_i, tl_j, n_e)  scale = (num_large_crops + num_small_crops) * num_large_crops  loss /= scale  # Compute grads, update online and target networks  loss.backward()  update(f_o)  g_t = gamma * g_t + (1 - gamma) * f_o
RELICv2的伪代码