计算机视觉中的半监督学习（2013-2020）-技术圈

在过去的几年中，计算机视觉的半监督学习方法一直在迅速发展。当前最先进的方法正在简化体系架构和损失函数方面的现有工作，或者通过混合不同的公式来引入混合方法。

在这篇文章中，我将通过图表来说明最近提出的有关半监督学习方法的关键思想。

1. 自训练

在这种半监督的策略中，模型在标记的数据上训练，并用于预测未标记数据的伪标记。然后，在真实标签和伪标签上同时训练模型。

a. 伪标签

Dong-Hyun Lee 在 2013 年提出了一种非常简单有效的策略，称为伪标签。

想法是同时在一批带标签和未带标签的图像上训练模型。以通常的监督方式在带标签图像上使用带有交叉熵损失来训练模型。使用同一模型来预测一批未标记图像的标记，并将最大置信度类别用作伪标记。然后，通过比较模型预测和未标记图像的伪标记来计算交叉熵损失。

总的损失是标记和未标记损失项的加权和，

L = L_{labeled} + \alpha_{t} * L_{unlabeled}<br />

为确保模型已从标记数据中充分学习，在最初的 100 个训练步骤中项设置为 0。然后逐渐增加该权值，直到 600 次训练后保持恒定。

b. 带噪学生

谢等人于 2019 年提出了一种受知识蒸馏启发的半监督方法，称为带噪学生。

关键思想是训练两个独立的模型，分别称为教师和学生。首先在标记的图像上训练教师模型，然后将其用于推断未标记图像的伪标记。这些伪标签可以采用最可靠的类别，可以是软标签，也可以转换为硬标签。然后，将标记和未标记的图像组合在一起，并在此组合数据上训练学生模型。使用 RandAugment 作为输入噪声的形式来增强图像。而且，模型噪声（例如 Dropout 和随机深度）被合并到学生模型体系结构中。

训练好学生模型后，它将成为新老师，并重复此过程三遍。

2. 一致性正则化

该范例使用的想法是，对未标记图像的模型预测在添加噪声后也应保持一致。我们可以使用输入噪声，例如图像增强和高斯噪声。噪声也可以使用 Dropout 来纳入体系架构中。

a. π 模型

该模型由 Laine 等人在 ICLR 2017 的会议上提出。

关键思想是为标记和未标记的数据创建两个随机增强图像。然后，使用带 dropout 项的模型来预测这两个图像的标签。这两个预测的差平方用作一致性损失。对于标记图像，我们还计算了交叉熵损失。总损失是这两个损失项的加权和。权重用于确定一致性损失在总体损失中的贡献程度。

b. 时域集成

Laine 等人在上面论文中还提出了这种方法。它利用预测的指数移动平均（EMA）对 π 模型作了改进。

关键思想是将过去预测的指数移动平均值用作一个视图。为了获得另一个视图，我们像往常一样放大图像，并使用带有 dropout 的模型来预测标签。当前预测和 EMA 预测的差平方用作一致性损失。对于标记图像，我们还计算了交叉熵损失。最终损失是这两个损失项的加权和。权重用于确定一致性损失在总体损失中的贡献程度。

c. 平均老师

该方法由 Tarvainen 等人提出。通用方法与时间集成相似，但是它使用模型参数的指数移动平均值（EMA）代替了预测。

关键思想是拥有两个模型，分别称为学生和老师。学生模型是带有 dropout 的常规模型。教师模型与学生模型具有相同的体系架构，但是其权重是使用学生模型的权重的指数移动平均值设置的。对于标记或未标记的图像，我们创建图像的两个随机增强版本。然后，将学生模型用于预测第一张图像的标签分布。并且，教师模型用于预测第二增强图像的标签分布。这两个预测的差平方用作一致性损失。对于标记图像，我们还计算了交叉熵损失。最终损失是这两个损失项的加权和。权重用于确定一致性损失对总体损失的贡献程度。

d. 虚拟对抗训练

该方法由 Miyato 等人提出。它使用对抗性攻击的概念进行一致性正则化。

关键思想是生成图像的一份对抗转换，这也会改变模型的预测。为此，首先，创建图像的对抗性变体，以使原始图像的模型输出与对抗性图像之间的 KL 散度最大化。

然后，我们按照之前的方法进行操作。我们将带有标签/未标签的图像作为第一视图，并将在先前步骤中生成的对抗示例作为第二视图。然后，使用相同的模型来预测两个图像的标签分布。这两个预测的 KL 散度被用作一致性损失。对于标记图像，我们还计算了交叉熵损失。最终损失是这两个损失项的加权和。权重用于确定一致性损失对总体损失的贡献程度。

e. 无监督数据增强

此方法由 Xie 等人提出，对于图像和文本均适用。这里我们主要考虑在图像中理解该方法。

关键思想是使用 AutoAugment 创建未标记图像的增强版。然后，使用相同的模型来预测这两个图像的标签。这两个预测的 KL 散度被用作一致性损失。对于带标签的图像，我们仅计算交叉熵损失，而不计算一致性损失。最终损失是这两个损失项的加权和。权重用于确定一致性损失在总体损失中的贡献程度。

3. 混合方法

这类方法结合了以前工作中的想法，例如自训练和一致性正则化，以及用于提高性能的其他内容。

a. 混搭 MixMatch

这种整体方法是由 Berthelot 等人提出的。

要了解这种方法，让我们逐步完成每个步骤。

i. 对于标记的图像，我们对其进行增强。对于未标记的图像，我们创建 K 个增强版本，并获取所有 K 个图像的预测。然后，将预测结果取平均，然后应用 temperature scaling 以获得最终的伪标签。该伪标签将用于所有 K 增强。

ii. 将标记和未标记的增强图像批次整合，然后将整个组洗牌。然后，将该组的前 N 张图像作为，将其余 M 张图像作为。

iii. 接着，在标记的批次和组之间应用混合。同样，在 M 张增强的未标记图像和组之间应用混合。因此，我们得到了最终的标记组和未标记组。

iv. 然后，对于带标签的组，我们进行模型预测并使用混合标签当 ground truth 来计算交叉熵损失。同样，对于未标记的组，我们使用混合伪标记来计算模型预测并计算均方误差（MSE）损失。对这两项进行加权求和，用加权 MSE 损失。

b. FixMatch

该方法由 Sohn 等人提出，并结合了伪标签和一致性正则化，同时大大简化了整个方法。它在广泛的基准测试中获得了最先进的结果。

如图所示，我们在带有交叉熵损失的标记图像上训练一个监督模型。对于每个未标记的图像，应用弱增强和强增强以获得两个图像。弱增强图像被传递到我们的模型中，我们得到了关于类的预测。将最置信度最高的类别的概率与阈值进行比较。如果它高于阈值，那么我们将该类别作为伪标签。然后，将经过强增强的图像传递到我们的模型中，以获取有关类的预测。使用交叉熵损失将此预测与伪标记进行比较。两种损失都被合并，模型得到了优化。

如果想了解 FixMatch 的更多信息，请参阅论文。

4. 方法比较

下图是上述所有方法之间的差异比较。

5. 通用评估数据集

为了评估这些半监督方法的性能，通常使用以下数据集。作者通过仅使用整个数据集的一小部分（例如 40/250/4000/10000 个示例）作为标记并将其余部分视为未标记的数据集来模拟少数据数据集。

6. 结论

本篇概述了近年来计算机视觉领域中半监督技术的进展。这是一个非常重要的研究领域，会对行业产生直接影响，值得持续关注。

原文: Amit Chaudhary: https://amitness.com/2020/07/semi-supervised-learning/

参考文献

Dong-Hyun Lee, “Pseudo-Label: The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks”
Qizhe Xie et al., “Self-training with Noisy Student improves ImageNet classification”
Samuli Laine et al., “Temporal Ensembling for Semi-Supervised Learning”
Antti Tarvainen et al., “Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results”
Takeru Miyato et al., “Virtual Adversarial Training: A Regularization Method for Supervised and Semi-Supervised Learning”
Qizhe Xie et al., “Unsupervised data augmentation for consistency training”
Hongyi Zhang, et al. “mixup: Beyond Empirical Risk Minimization”
David Berthelot et al., “Mixmatch: A holistic approach to semi-supervised learning”
David Berthelot et al., “ReMixMatch: Semi-Supervised Learning with Distribution Alignment and Augmentation Anchoring”
Kihyuk Sohn et al., “FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence”