DFMSD：面向目标检测的双特征Mask异质蒸馏框架！-技术圈

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「集智书童-知识星球」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

近年來，当前主流的特征 Mask 蒸馏方法主要是通过从教师网络的特征图重构学生网络的选定 Mask 区域。在这些方法中，注意力机制能够帮助识别空间上重要的区域和关键的目标感知通道线索，从而使重构的特征编码具有与教师特征相似的足够的判别力和表现力。然而，先前的特征 Mask 蒸馏方法主要解决同质知识蒸馏问题，而没有充分考虑异质知识蒸馏场景。

特别是，在异质蒸馏范式下，教师与学生框架之间的巨大差异对特征 Mask 有害，导致重构的学生特征质量下降。在本文中，作者提出了一种新颖的面向目标检测的双特征 Mask 异质蒸馏框架，简称DFMSD。

更具体地说，作者在双特征 Mask 框架中融入了分阶段适应学习模块，从而使学生模型可以逐步适应教师模型，以弥合异构网络之间的差距。

此外，结合分阶段学习，采用 Mask 增强策略，使目标感知 Mask 区域自适应地加强，以提高特征 Mask 重构的性能。

另外，在教师与学生网络的每个特征金字塔网络（FPN）层之间执行语义对齐，以生成一致的特征分布。

作者对目标检测任务的实验表明，作者的方法具有潜力，表明DFMSD优于现有的异质和同质蒸馏方法。

1 Introduction

众所周知，知识蒸馏（KD）可以帮助将知识从复杂的模型（教师模型）转移到紧凑的网络（学生模型），从而使后者能够在较低成本下实现更优的性能。它被认为是对各种下游任务（包括目标检测和语义分割）进行模型压缩的有效手段。早期的蒸馏算法主要关注网络的输出 Head ，旨在将复杂教师网络中学到的隐含知识转移到轻量级的学生模型中。这种蒸馏方案也被称为基于对数的分类蒸馏[1; 2; 6; 7]。此外，基于特征的蒸馏方法也日益受到关注。它帮助学生在蒸馏过程中模仿教师模型的特征图，使得生成的学生特征具有更强的表示能力[8; 9]。近来，一种名为特征 Mask 蒸馏的流行范式应运而生。与直接模仿教师的特征蒸馏不同[10; 11]，特征 Mask 蒸馏通过 Mask 学生特征图的选择性区域并在蒸馏过程中重建这些 Mask 区域[12]。从这个意义上说，特征 Mask 蒸馏本质上是从教师那里重建转移的知识，而不是直接传递知识。因此，它可以帮助学生更好地从教师那里学习。特别是，最近的努力致力于利用特征注意力来揭示具有目标感知的空间重要区域和通道线索，从而使学生特征具有与教师特征相媲美的足够的描述力[13]。因此，这种关注引导的特征 Mask 策略极大地提高了学生模型的性能[14]。

尽管近年来取得了显著的进展，但大多数特征 Mask 蒸馏方法主要针对同构蒸馏进行开发，这种蒸馏假设教师模型和学生模型的结构大致相似，除了前者通常采用更强的 Backbone 网络。例如，在同构蒸馏框架内，RetinaNet-ResNet101 [15]和RetinaNet-ResNet50 [15]分别用作教师模型和学生模型。它们未能充分考虑异构蒸馏场景，后者更具挑战性，因为教师和学生框架之间存在显著差异[17]。

在检测任务方面，不同的异构检测器在目标感知能力上表现出显著的差异。如图1所示，具有相同ResNet50 Backbone 网络的Faster R-CNN [18]，RetinaNet [15]和FCOS [19]等不同检测器在激活映射和转换为特征 Mask 时的差异很大[15; 20]。尽管共享相同的 Backbone 架构，由于异构网络结构，教师和学生检测器具有不同的表示能力[21]。因此，异构检测Head编码了不同的目标感知语义线索。直接将教师模型中学到的知识转移到另一个异构的学生模型，性能提升有限，这表明在语义感知能力上的巨大差距使得学生难以从教师那里学到有用的知识[17]。因此，重建的学生特征并不能提高模型性能。

为了解决上述缺点，在本研究中，作者提出了一个双特征 Mask 分阶段蒸馏框架（DFMSD），用于目标检测。在关注引导的双特征 Mask 框架下，作者将分阶段适应学习模块集成到双 Mask 框架中，以解决异构蒸馏问题。由于直接从教师到学生的知识转移并不有益，作者通过首先让学生从“较弱”的教师学习，然后改进的学生适应“更强”的教师进行蒸馏细化来进行分阶段蒸馏[8; 24]。这样，学生模型可以通过渐进式蒸馏更好地适应教师，这有助于弥合他们之间的差距[17]。此外，作者将 Mask 增强策略嵌入到分阶段蒸馏中，使得后期蒸馏阶段的“更强”教师能够从加强的目标感知 Mask 区域中受益，从而改善特征 Mask 重建[25]。另外，作者进一步使用皮尔逊相关系数[26]进行语义对齐，以生成一致的教师-学生特征分布[27; 28]。通过上述改进，作者可以在双特征 Mask 蒸馏框架内处理异构网络。针对检测任务的广泛实验已经证明了作者提出的方法在异构和同构蒸馏场景中的优越性[29]。本研究的主要贡献可以总结如下：

作者开发了一个双重特征 Mask 分阶段蒸馏框架（DFMSD），通过将分阶段适应学习（SAL）模块集成到双重 Mask 网络中，以弥合异构教师模型和学生模型之间的语义差距。该框架使得学生模型首先从“较弱”的教师模型中学习，然后用“更强”的教师模型细化适应后的学生模型，从而提高了适应性的知识转移至学生模型。

作者进一步在DFMSD中引入了一个 Mask 增强模块，该模块可以自适应地增强目标感知 Mask 区域。在考虑语义区域的频率分布时，采用了自适应数据增强策略，从而加强相应的 Mask 区域，以提高 Mask 特征重建。
为了更好地对齐异构网络，作者进一步使用皮尔逊相关系数对逐层特征进行语义对齐，产生了统一的教师-学生特征分布。
针对检测任务的广泛实验证明了作者方法在同构和异构蒸馏设置中的有效性。

本文的其余部分结构如下。在第2部分回顾相关工作之后，作者将在第3部分详细阐述作者的方法。在第4部分，作者进行了广泛的实验评估，最后在第5部分总结全文。

2 Related Work

在本节中，作者全面回顾了与作者的方法密切相关的目标检测和知识蒸馏的最新进展。

目标检测

人们普遍认为，基于深度模型的目标检测方法大致可以分为三类：基于 Anchor 框的检测器[18; 30]， Anchor-Free 框的检测器[19]，以及端到端的检测器[31]。基于 Anchor 框的检测器，包括两阶段检测器[16; 18; 32; 33]和单阶段检测器[3; 34; 35]，通常依赖于预定义的 Anchor 框来实现准确的目标检测和定位。特别是，单阶段检测器通过直接对 Anchor 框进行分类和回归，无需预先生成目标 Proposal ，从而在效率和准确性之间实现了较好的平衡。与基于 Anchor 框的检测器不同， Anchor-Free 框方法包括基于关键点的CornerNet[36]和基于中心的CenterNet[37; 38]，避免了预定义的 Anchor 框，可以直接预测目标位置，具有理想的灵活性。随着Transformer架构的兴起，近年来先进的端到端Transformer检测器如DETR[31; 39]取得了巨大成功。它们具有无与伦比的长距离全局建模能力，但昂贵的计算资源和成本是不可避免的。

在目标检测中，重型和轻型检测器之间存在巨大差距。特别是，追求高性能的重型模型通常需要复杂的 Backbone 结构和高额的计算资源[39; 40; 41]。因此，在设计具有低复杂度和实时性能的轻量级高效检测器方面，实际应用中需求迫切。由于知识蒸馏技术能够将大型网络的更强表示能力转移到小型网络上，它促进了接近大型网络性能的轻量级 Backbone 网络的设计。

Knowledge Distillation

作为一种有效的模型压缩手段，知识蒸馏保持了轻量级模型的紧凑结构，同时显著提升了模型的性能。最早的工作可追溯到[1]，其中通过教师网络获得的软标签被融入到学生网络的损失函数中，使得学生网络能够学习到与教师网络一致的分类概率分布。近年来，在知识蒸馏方面取得了显著的进展，作者将全面回顾不同的知识蒸馏方法。

2.2.1 Feature-based knowledge distillation

基于特征的蒸馏方法帮助学生模型模仿教师模型，生成具有更强表征能力的特点。第一种基于特征的蒸馏方法是在[2]中提出的FitNets，它证明了中间层的语义信息也可以被学生网络学习为隐式知识。因此，蒸馏技术已被广泛应用于各种下游任务中。李等人[44]利用较大网络中的区域 Proposal 来帮助较小网络学习更高级的语义信息。戴等人[45]开发了GID框架，它根据学生网络与教师网络之间的差异选择特定的蒸馏区域。杨等人[46]提出了FGD，它将前景与背景分离，允许学生模型通过同时的局部和全局蒸馏，从感兴趣的区域和从教师网络提取的全局知识中学习。

2.2.2 Masked feature generative distillation

与特征蒸馏技术不同，掩蔽特征蒸馏方法使学生模型能够从选择性地掩蔽的区域重构特征，而不是直接从教师特征中学习。第一个掩蔽蒸馏框架是MGD [47]，它随机掩蔽学生模型的特征图，并从教师网络中重构它们。然而，随机掩蔽可能会引入额外的噪声，导致具有受损表示能力的偏置特征图。为了识别掩蔽区域的重要性，已经提出了基于注意力的掩蔽特征蒸馏方法，以改善学生模型的目标感知能力。杨等人[48]提出了一种自适应掩蔽蒸馏方法，称为AMD，用于目标检测。一方面，AMD通过执行空间自适应特征掩蔽来编码特定区域的重要性，使学生模型能够从教师网络中学习更重要的目标感知特征。另一方面，为了增强目标感知能力，AMD采用了一个简单而高效的SE块，为学生模型生成有益的通道自适应线索。基于AMD，杨等人[12]进一步提出了一种双重掩蔽知识蒸馏方法，称为DMKD [12]。与之前的基于掩蔽的算法不同，DMKD [12]同时关注空间和通道维度，分别表征重要的空间区域和通道语义信息。因此，它在学生特征重构方面具有显著优势，并有助于提高蒸馏性能，与之前的方法相比表现出更优越的性能。与本质上是一阶段蒸馏方法的方法相比，作者提出的方法执行阶段性的蒸馏，使学生能够在不同阶段逐步适应多个教师，以弥合异构网络之间的差距。据作者所知，这是第一个用于解决异构蒸馏的双重特征掩蔽阶段性学习框架。

2.2.3 Heterogeneous Knowledge Distillation

在知识蒸馏中，教师网络和学生网络之间的多样性对知识传递提出了巨大的挑战，并且对蒸馏性能有害，尤其是当它们具有异构的网络架构时。为了应对这一挑战，MimicDet [49] 引入了一个模仿两阶段检测器工作流程的细化模块，并在教师和学生网络 Head 之间执行特征对齐以进行蒸馏。G-DetKD [50] 是首个提出通用蒸馏框架的工作，该框架适用于目标检测。它在所有金字塔层级上执行软匹配以提供指导。然而，在学习相似性得分之前，通过结合不同层级的学生特征进行特征模仿并不能从根本上弥合语义差距。在HEAD [51] 中，引入了一个辅助网络到知识蒸馏框架中，该辅助网络具有与教师检测器相同的检测Head，并直接从教师那里学习，以连接教师-学生检测器。由于辅助网络和教师共享相同的检测Head，因此在异构教师-学生检测器中有效地桥接了语义特征差距，从而更好地进行知识传递。Cao等人[52]开发了一种基于皮尔逊相关系数[26]的知识蒸馏方法PKD，该方法揭示了教师和学生特征之间的线性相关性。为了消除不同特征金字塔网络（FPN）阶段和教师-学生检测器内及之间通道的振幅差异的负面影响，首先将特征图归一化以使均值为零、标准差为单位，然后在这些归一化特征之间最小化均方误差（MSE）损失。Wang等人[53]提出了一种创新的跨头蒸馏 Pipeline ，称为CrossKD，以缓解目标冲突问题。该方法将学生网络的中间特征转移到教师网络的检测Head上，从而生成跨头预测。然后，在这些新生成的跨头预测和教师模型生成的原始预测之间进行知识蒸馏。这保证了KD损失不会影响学生网络检测Head中的权重更新，避免了原始检测损失与KD损失之间的冲突。此外，由于跨头预测和教师预测都是从教师网络中共享检测Head的一部分生成的，因此跨头预测与教师获得的预测相对一致。这显著减少了教师和学生检测器之间的不一致性，增强了在预测模仿[54; 55]过程中训练的稳定性。尽管这些方法可以实现成功的异构蒸馏，但它们没有探索在自适应分阶段蒸馏中以特征 Mask 的方式提升学生特征的表现力，导致学生在表现力上的提升有限。因此，学生仍然远远落后于教师，异构网络之间仍然存在很大的差距。相比之下，作者的方法通过执行双重特征 Mask 分阶段学习来解决异构蒸馏问题，从而稳步提升学生特征，并有效地减少异构网络之间的差距。

3 Proposed Method

由于作者提出的方法本质上属于 Mask 特征蒸馏的范畴，作者首先将介绍特征蒸馏的公式。基于特征蒸馏公式，作者将展示一个由注意力引导的双 Mask 蒸馏框架，随后介绍作者的方法。此外，作者还将详细阐述作者提出的具有三个关键组件的阶段性双特征 Mask 蒸馏（DFMSD）框架。

Problem Formulation

特征蒸馏

特征蒸馏通过从教师模型向学生模型转移特征级知识，生成与教师模型相媲美的足够描述性特征。从数学上讲，可以通过以下蒸馏损失函数来实现：

在双重 Mask 知识蒸馏（DMKD）框架下，作者识别了空间上的显著区域和富有信息性的通道，并集成了分阶段自适应学习策略（SAL），使得学生网络能够逐步从不同的异构教师网络中学习，提高了适应性。同时，在SAL中融入了 Mask 增强模块，以增强面向目标的 Mask 区域，从而改善 Mask 特征重建。此外，在教师和学生 Backbone 网络的FPN层之间执行语义特征对齐，生成一致的特征分布，以进一步弥合教师与学生之间的差距。

其中，表示在 Backbone 网络后的FPN中的层数，代表第层的特征大小，而、和分别指特征图的通道数、高度和宽度。和分别表示从教师模型和学生模型生成的特征。表示线性投影层，能够将与在特征分辨率上进行对齐。

最近的研究表明，从教师模型中学习和重建学生特征被认为是传统特征蒸馏范式中特征模仿的更优选择[47; 48]。更具体地说，可以从学生在特征图上选择性地 Mask 区域重建出具有表现力的特征，这被称为 Mask 特征蒸馏。特别是，注意力引导的 Mask 特征蒸馏改进了原型 Mask 生成性蒸馏框架，其中 Mask 区域是随机生成的[47]。最近，提出了一种双重 Mask 知识蒸馏框架，称为DMKD[12]，以全面将面向目标的语义编码到学生网络中。更具体地，从教师网络导出的双重注意力图，捕捉空间上重要和通道信息性线索，表述为：

其中，和分别表示通道和空间注意力图。然后，在通过SE和生成模块[12]实现改进的 Mask 特征重建之前，执行注意力引导的特征 Mask 。

Our DFMSD Framework

尽管上述提到的双 Mask 特征蒸馏方案能够以增强的表现力重构学生特征，但当教师模型和学生模型拥有不同的网络架构时，它在将知识从教师模型转移到学生模型方面的效果不佳，因此在异构蒸馏任务中的性能有所下降。为了缓解这个问题，

在本研究中，作者提出了一种面向目标检测的双特征 Mask 分阶段知识蒸馏方法，称为DFMSD。图2展示了作者提出的DFMSD模型的框架。

在DMKD的基础上，将分阶段的自适应学习策略融入到双 Mask 蒸馏框架中，以逐步在不同阶段使学生模型适应教师模型，这有助于弥合异构网络之间的差距。同时，引入了一个 Mask 增强模块，根据频率分布特性自适应地增强目标感知 Mask 区域，从而进一步改善分阶段蒸馏的特征 Mask 。此外，通过皮尔逊相关系数[26]在教师-学生FPN之间进行语义对齐，以生成一致的特征分布。

因此，作者的DFMSD网络能够通过提高异构蒸馏性能来缩小教师与学生之间的差异。接下来，作者将详细阐述DFMSD网络中上述三个关键组成部分。

Stage-wise Adaptive Learning Module

传统的 Mask 蒸馏范式采用了一阶段的知识迁移策略，其中学生模型通过单一的一阶段学习直接从一个教师模型中学习。然而，这种“一阶段学习”通常使得容量有限的学生模型难以从一个高度复杂的教师模型中充分学习，更不用说从一个网络结构完全不同的异构教师模型中了。为了缩小异构教师和学生网络之间的差距，作者在双 Mask 蒸馏框架中集成了分阶段自适应学习（SAL）机制，以提高学生模型的适应性。与之前仅在蒸馏过程中使用一个教师模型的方法不同，作者的策略利用了几个先进的检测器，并允许学生网络在各个阶段自适应地从教师那里学习。更具体地说，学生模型可以先从前期阶段相对较弱的教师网络中学习，产生次优结果。随后，将适应后的学生作为新的学生，在后期的阶段从更强大的教师网络中学习，从而促进更完整的知识迁移。在SAL机制的辅助下，学生网络可以更好地适应随着蒸馏阶段的进步而逐步适应教师模型，从而显著缩小异构网络之间的差距。

图3：展示了作者SAL机制自适应提高蒸馏性能的说明。以Swin Transformer [39]和Faster R-CNN [18]分别作为教师和学生网络，两阶段的SAL机制首先用Swin-Transformer-T模型[39]将Faster R-CNN检测器从38.4%提升到42.2%，然后在更强大的Swin-Transformer-S检测器[39]下进一步将学生性能提升到42.9%。相比之下，传统的单阶段蒸馏方法仅将Faster R-CNN模型的准确率提升到42.3%，大致相当于SAL中的第一阶段蒸馏性能。

作者的SAL模块的有益效果可以在图3中说明。可以观察到，当异构的Swin Transformer [39]和Faster R-CNN [18]分别作为教师和学生检测器时，SAL模块显著有助于提高蒸馏性能。具体来说，两阶段自适应学习使得Swin-Transformer-T [39]将Faster R-CNN模型的性能从38.4%提升到42.2%，并且在更强的Swin-Transformer-S教师检测器[39]下再提升0.9%，达到43.1%的mAP准确率。这超过了传统的单阶段蒸馏方法，其中Faster R-CNN直接从Swin-Transformer-S模型学习，报告次优的42.3%准确率，仅与SAL中的第一阶段蒸馏性能相当。

图4直观地比较了使用SAL策略在不同阶段生成的学生网络特征图。可以清楚地观察到，在连续的蒸馏阶段之后，学生网络可以捕捉到更多关于目标的语义区域。例如，与原始的学生网络特征图相比，经过第一阶段的蒸馏后，可以揭示与斑马 Head 和 Neck 相对应的更多语义重要区域。当第二阶段蒸馏完成后，通过接近教师对应特征图的判别性特征图，可以全面地表征特定于斑马的区域，并且容易与背景区域区分开来。这充分说明作者的SAL模块不仅逐步提高了学生模型的表征能力，而且还显著缩小了异构教师和学生网络之间的差距。

Masking Enhancement module

先前的研究从频率角度探索了基于CNN模型的尺度感知目标感知能力[56]。研究表明，相同的检测器在不同的频率域表现出不同的检测性能。更具体地说，基于CNN的检测器在图像的低频域中可能成功识别较大的目标，而忽略较小的目标，反之亦然，在高频域中。因此，当对两个频率域进行关注指导的特征 Mask 处理时，根据目标感知频率分布的变化，会获得不同的关注图。具体来说，与高频成分相对应的小目标 Mask 区域被赋予更高的关注分数，而在高频域中，通常降低对低频 Mask 区域的关注。相反，在低频域中，与较大目标相对应的低频 Mask 区域倾向于获得更多关注，并超过高频区域。然而，在作者的SAL模块中，一个具有有限目标感知能力的“较弱”的教师无法生成准确编码空间重要性的关注图，特别是当图像中的目标特定频率分布多样时。例如，如图5所示，RetinaNet检测器在对应于图像高频域中小目标的一些高频区域生成了低关注分数。这些低分区域对于特征 Mask 来说不易识别，这对准确检测较小目标（包括足球和远处部分遮挡的黑衣裁判）是不利的。

为了进一步使后续的蒸馏受益，作者在SAL模块中引入了一个 Mask 增强模块，以提高目标感知能力。关于作者的 Mask 增强策略，根据图像的目标特定频率分布，自适应地应用数据增强方法，为特征重建生成增强的 Mask 区域。例如，适当的数据增强方法应该加强以小目标为主图像中的高频信息，以便将更多对应于高频小目标的区域识别为对特征 Mask 在语义上重要的区域。相比之下，当图像中的大多数目标是中等大小或大尺寸时，应该通过自适应数据增强方案增强更多低频区域，以识别图像中的较大目标。

为了研究不同数据增强[57; 58]方法的频率属性，包括随机翻转[59]，随机裁剪[60]和高斯噪声扰动[61]，作者对各种增强方法在频率域中对原始图像的影响进行了详细分析。更具体地说，作者对包括原始未修改图像及其经过不同数据增强方法处理后的变体在内的图像进行了二维离散傅里叶变换（DFT）[62]，得到了一系列傅里叶频谱，直观地展示了不同增强方法的频率特性。

如图6所示，翻转图像产生的傅里叶频谱与原始频谱相似，本质上没有改变其属性特征。然而，当向图像中添加高斯噪声时，可以观察到频谱中接近中心的频率幅度被抑制，这意味着高斯噪声扰动可能有助于揭示图像中的高频小目标。相比之下，经过随机裁剪的图像在傅里叶频谱的接近中心区域显示出更高的幅度，这表明图像的低频信息得到了加强。

由于不同的增强策略可以提升特定的频率信息，作者尝试根据图像的目标感知频率特征执行自适应数据增强技术，从而增强相应的 Mask 区域，以便在特征重建时提高表现力。一方面，作者采用裁剪增强方法来加强几乎不包含小目标的图像中的低频成分。具体来说，作者使用随机比例裁剪策略来调整图像边缘，这不仅增强了图像的低频线索，还使模型能够准确识别和定位大目标区域。另一方面，对于主要以小目标为特征的图像，作者添加高频高斯噪声以增强高频信息。具体而言，从均值为0、方差为的正态分布中采样高频噪声，记为，并以一定的概率将其添加到原始干净图像上。这样，作者可以在保持主要特征信息的同时增强图像的高频目标感知区域，从而帮助检测器更准确地捕捉小目标。由此产生的自适应增强数据随后被送入作者SAL模块的最后阶段中的“更强”的教师检测器，以生成增强的注意力 Mask 。

图7展示了作者引入的数据增强策略。对于具有不同目标感知分布的输入图像，可以从前一阶段的“较弱”教师模型中导出候选目标区域。然后，根据目标特定的频率特征采用自适应增强方法。

从数学上讲，作者提出的特征 Mask 自适应数据增强方法可以表述为：

图5：比较了RetinaNet检测器在不同频率域中得到的目标感知候选框和区域感知注意力得分分布。可以清楚地观察到，即使在图像的高频域中，RetinaNet也会错过一些小目标，包括黑色的足球和远端部分遮挡的裁判。这也可以在区域特定的注意力地图中得到证明，相应区域的得分较低。然而，在自适应增强策略的帮助下，与小目标相关的高频区域的重要性得到提升，如(f)中强调的注意力得分增加，这对后续的特征 Mask 和重建是有益的。

图6：比较了原始图像（a）及其通过翻转（b）、添加高斯噪声（c）和裁剪（d）变换得到的二维傅里叶光谱。它证明了不同的增强方案可以加强特定的频率信息。特别是，裁剪有助于增强低频信息，而高斯噪声扰动可以抑制它，以便更好地识别高频小目标。

其中表示从第一阶段教师检测器导出的图像中所有候选边界框的面积之和。表示预定义的阈值，有助于区分图像是否主要包含相对较小或较大的目标感知区域。当图像主要包含相对较小的目标，即时，向图像中添加高斯噪声以增强对应于小目标的高频 Mask 区域。相比之下，通过裁剪机制可以增强低频目标感知 Mask 区域，从而使大目标 Mask 区域获得更多关注。因此，可以获得自适应增强的 Mask 区域，以改善特征重建。

参照文献[63; 64]，此外，引入了对抗性样本以进一步挖掘教师模型中的不一致性知识，这有助于提高学生网络的语义感知能力[65; 66]。

Semantic Feature Alignment Module

由于师生之间的差距，异构网络在FPN每一层上的特征语义意识也存在显著差异。如图8所示，教师与学生模型之间的特征分布存在显著差异，特别是教师和学生网络中FPN的第二层（P2）的特征展现出不同的目标感知能力。为了进一步弥合这一差距，作者提出在教师与学生之间在FPN的每一层进行语义对齐，使得异构模型生成一致的特征分布。具体来说，首先将两个网络的特性标准化为零均值和单位方差。同时，最小化标准化特征之间的均方误差，以更好地揭示教师与学生之间的相关性。此外，这种标准化策略可以在一定程度上减少跨层差异，使得教师和学生网络能够用一致的表征能力全面刻画高级语义。在数学上，作者的语义对齐可以通过计算以下形式的皮尔逊相关系数来实现：

其中，用于量化教师与学生模型之间的相关性程度。和分别代表教师和学生每一层的特征，表示正态分布的均值。此外，表示FPN层的数量。通过上述形式的特征标准化，教师与学生特征得到良好对齐，最大化了学生和教师预标准化特征之间的相似性。

Loss Function

作者的DFMSD模型的总体损失函数可以表述为：

其中是原始的检测损失，而表示如下所示的逐阶段蒸馏损失：

这里是蒸馏阶段的数量，而、和分别表示特征图的通道数、高度和宽度。表示被 Mask 的学生特征图。另外，表示在最后一个蒸馏阶段对自适应增强数据施加的蒸馏损失：

其中和分别代表从教师模型和学生模型生成的增强 Mask 特征。是用于归一化的第层特征图中的元素总数。借助方程式 (8)，作者的蒸馏得到了改进，从而进一步提高了学生模型的性能。在上面的方程式中，和是平衡不同项的超参数。

4 Experiments

在本节中，作者将在简要介绍数据集和实验设置之后，全面展示对作者提出的DFMSD框架的评估实验。

数据集和实验设置

作者提出的DFMSD方法在流行的COCO数据集[67]上进行评估，该数据集包含超过320k张图像，涵盖80个不同的目标类别，并配有丰富的标注。它被广泛应用于各种任务中，包括目标检测、图像分割和场景理解。实际上，作者使用120k张训练图像进行训练，以及5k张验证图像进行测试。在作者的蒸馏框架中，涉及了多种检测器，包括RetinaNet [15]、FCOS [19]、Cascade Mask R-CNN [16]、Faster R-CNN [68]、GFL [69]、RepPoints [70] 和 Swin-Transformer [39]。

特别地，作者在两种情况下评估了作者的异构蒸馏方法：即ViT与CNN架构之间的蒸馏，以及不同CNN检测器之间的蒸馏。关于作者的SAL策略，阶段数设为以提高效率，这意味着在各自的蒸馏阶段涉及两个教师模型。在性能衡量方面，作者遵循[71]的做法，采用平均精度（AP）和平均召回率（AR）作为指标。所有实验都是在配备Intel(R) Core(TM) i9-10900K CPU和3090 GPU的台式机上，在PyTorch框架下进行的。在训练过程中，使用SGD优化器对所有检测器进行24个周期的训练。同时，动量设置为0.9，权重衰减设置为0.0001。此外，作者的实验采用了单尺度训练策略。为了证明作者的DFMSD模型的优越性，作者在比较研究中纳入了众多最先进的（SOTA） Mask 特征蒸馏方法，包括FKD [72]、FGD [46]、MGD [47]、AMD [48]、DMKD [12]、PKD [52]和crossKD [53]。

Heterogeneous distillation between ViT and CNN Models

在本研究中，作者进行了大量实验，涉及先进的Swin-Transformer（ST）模型及不同类别的卷积神经网络（CNN）检测器。具体来说，作者将ST作为教师框架，而CNN学生模型通过作者的SAL模块逐渐适应到“较弱”的ST-T模型和“更强”的ST-S模型。所有学生CNN检测器均采用ResNet50作为基础网络。根据CNN检测器类别，作者对ViT与CNN模型之间的异构蒸馏实验可分为以下三组。

4.2.1 Distillation between ST and two-stage CNN detector

在这组实验中，以ResNet50为主干的Faster R-CNN检测器作为学生模型。如表1所示，作者的DFMSD方法将 Baseline 性能提升了4.7%mAP，达到了最高的43.1%准确率。此外，它还分别超过了SOTA方法MGD和DMKD 1.2%和0.8%。在mAR指标上也观察到了类似性能的提升。这些结果充分说明，与MGD和DMKD这类单阶段蒸馏方法相比，作者的方法可以利用阶段式蒸馏为学生模型带来更多的性能增益。

4.2.2 Distillation between ST and one-stage CNN detector

与第一组实验设置不同，作者将学生版的Faster R-CNN框架替换为RetinaNet框架。与第一组的结果相似，作者的方法在mAP性能上比 Baseline 提高了3.8%，在mAR性能上提高了4.0%。此外，所提出的DFMSD模型一致性地优于其他两个竞争模型，并且特别是在mAP上比其前身DMKD高出0.9%，这表明作者的模型具有显著优势。

4.2.3 Distillation between ST and anchor-free CNN detector

为了进一步评估作者提出方法的泛化能力，作者采用了 Anchor-Free 点FCOS检测器作为学生网络。尽管与前面两组相比，作者的模型在性能提升上较少，但它仍然展现出一致的性能优势。

Heterogeneous distillation among CNN models

除了在ViT和CNN架构之间的蒸馏外，作者还对不同类别的CNN检测器之间进行了额外的异构蒸馏实验，分别是两阶段模型、单阶段模型和 Anchor-Free 点模型。实验分为以下三组进行。与上述实验一致，所有学生CNN检测器均采用ResNet-50作为 Backbone 网络。

4.3.1 Distillation using two-stage detectors as the teachers

在这组实验中，作者采用两阶段的级联 Mask R-CNN作为教师框架，而其他卷积神经网络模型作为学生模型。具体来说，所使用的“较弱”和“较强”教师模型分别是采用ResNet-50和ResNext-101作为 Backbone 网络的级联 Mask R-CNN。如表格2所示，作者的蒸馏方法显著地将单阶段学生检测器RetinaNet的性能提升了2.7%，达到了最高的40.1%mAP。同时，作者的方法比MGD和DMKD分别高出1%和0.4%mAP，这表明作者的蒸馏方案更有助于提升学生模型的性能。当采用 Anchor-Free 点FCOS检测器作为学生模型，而级联 Mask R-CNN保持为教师网络时，所提出的DFMSD相比于上述实验，在性能提升上较少，但仍然将 Baseline 提高了1.5%mAP，然而最佳结果仍然是由作者的方法实现的。

4.3.2 Distillation using one-stage detectors as the teachers

在使用一阶段检测器作为教师模型时，首先使用“较弱”的主干网络ResNet-101和“较强”的主干网络ResNeXt-101的RetinaNet框架，进行连续的蒸馏阶段。正如表3所示，作者提出的DFMSD分别比Faster R-CNN和FCOS Baseline 学生模型的性能提高了2.8%和1.5%，并且在mAP和mAR方面持续超越了其他两种单阶段蒸馏方法。当教师框架被更强大的GFL检测器[73]替换，而学生网络使用FCOS[19]时，与 Baseline 和其他竞争方法相比，也可以观察到类似的改进，这表明学生模型能够从作者有效的知识传递蒸馏方案中受益。

4.3.3 Distillation using anchor-free detectors as the teachers

当采用 Anchor-Free 点检测器作为教师网络时，FCOS被用作教师模型，而三种不同类型的检测器作为学生模型，分别是两阶段的Faster R-CNN，以及一阶段的GFL和RetinaNet。以Faster R-CNN作为学生模型，表4显示，与基准方法相比，作者方法的性能提升达到了2.4%的mAP和1.9%的mAR，这一致超越了其他蒸馏方法。当涉及一阶段的检测器，包括GFL和RetinaNet时，作者的蒸馏方法仍然取得了最佳结果。特别是，所提出的DFMSD将RetinaNet的mAP准确率从37.4%提升到了40.2%，并将mAR准确率从53.9%提升到了56.9%，显示出显著的性能改进。此外，作者的DFMSD在各项指标上也优于MGD和DMKD，一致性改进超过了0.5%。结果一致表明，在各种情况下，作者的方法具有与框架无关的优势，这表明在多样化的异构教师模型帮助下，作者的蒸馏范式可以学习到更多关键信息，以提高学生模型的表现。

Comparison with SOTA Heterogeneous Knowledge Distillation Methods

为了进一步证明作者方法的优势，作者将提出的DFMSD与其他异构蒸馏方法进行了比较，包括PKD和crossKD。特别是，crossKD采用了类似的适应性跨头策略，旨在通过预测模仿来弥合教师与学生之间的差距。在实践中，作者的DFMSD执行分阶段的蒸馏，使得具有ResNet50 Backbone 网络的RetinaNet学生检测器可以从原始的“较弱”的Swin-Transformer-T（ST-T）自适应地学习到“更强”的Swin-Transformer-S（ST-S）。相比之下，PKD和crossKD这两种没有特征 Mask 的单阶段蒸馏方法，通过直接将知识从级联 Mask R-CNN转移到ST-T。正如表5所示，作者的方法分别以1.3%和0.6%的mAP准确度超过了PKD和crossKD，这表明简单的跨头策略不足以减少异构教师与学生模型之间的差异，因此表现出次优性能。

Experiments of homogeneous distillation

除了上述异构蒸馏实验之外，作者还评估了在检测任务中进行同构蒸馏的情况下，作者的方法与COCO数据集中的其他SOTA方案（包括FKD、FGD、MGD、AMD和DMKD）进行了比较。在同构蒸馏中，教师和学生模型共享相同的检测框架，而前者具有比后者更强大的 Backbone 网络。如表6所示，包括RetinaNet、RepPoints、GFL和FCOS在内的四种不同检测器参与了作者的比较研究。此外，教师和学生框架的 Backbone 网络分别使用ResNeXt101和ResNet50。唯一的例外是作者的DFMSD框架，它结合了两个教师模型，分别在阶段自适应学习过程中使用ResNet101和ResNeXt101 Backbone 。

教师的预训练模型直接来自MMDetection工具箱[74]。从结果可以看出，作者的DFMSD在所有竞争方法中一致地表现出优越性。例如，当使用RetinaNet作为检测框架时，作者的方法比其前身DMKD提高了0.5%的mAP，并优于其他单一蒸馏方法。

当使用更先进的GFL检测器时，相对于DMKD的性能优势达到了1.4%，这证明了将阶段蒸馏机制集成到特征 Mask 框架中的显著益处。

Ablation Studies

在本节中，作者进行了大量的消融实验，以深入了解不同模块和配置对作者所提出蒸馏框架性能的影响。与上述实验中的设置类似，作者的消融研究涉及了各种ViT和CNN检测器。

4.6.1 SAL module

作者进行了不同组的实验，以探索蒸馏阶段以及不同的教师检测框架对模型性能的影响。更具体地说，所采用的教师检测器包括Cascade Mask R-CNN、FCOS、RetinaNet和ST-T，而以RetinaNet结合ResNet50作为学生模型。如表7所示，当学生模型依次从带有ResNet101和ResNext101 Backbone 网络的Cascade Mask R-CNN学习时，获得了最高的40.1%mAP准确率。有趣的是，这一结果与将三个具有连续的ResNet50、ResNet101和ResNeXt101 Backbone 网络的教师模型整合到作者的SAL模块中的情况相同，这表明过多的蒸馏阶段可能不会因类似教师模型的表征能力限制而提升学生模型的表现。此外，当教师检测器和学生检测器具有不同的网络架构时，性能下降的情况也得到了展示。例如，当Cascade Mask R-CNN作为“较弱”的教师框架保持不变，而将“更强”的对应框架用作更先进的ST-T框架时，获得的mAP分数略低，为40.0%，这比两个教师模型同时使用Cascade Mask R-CNN框架时的表现要差。这意味着多个教师模型之间的差异可能对蒸馏性能产生不利影响。

4.6.2 Masking enhancement module

为了探索 Mask 增强（ME）模块在不同蒸馏阶段对作者SAL模块的影响，作者进行了一系列实验，在这些实验中，作者将该模块分别引入到第一阶段、第二阶段以及两个阶段同时进行。具体来说，教师级的级联 Mask R-CNN检测器依次采用ResNet101和ResNeXt101作为 Backbone 网络，而RetinaNet-ResNet50作为学生模型。如表8所示，将 Mask 增强模块同时集成到两个阶段并不能带来进一步的性能提升，因为额外的增强可能会生成重复识别的物体感知区域，从而产生偏颇的检测结果。相比之下，仅将 Mask 增强引入到第二蒸馏阶段，作者的方法能实现略好的性能，mAP达到40.1%。这表明具有更强大表示能力的“更强”教师可以通过 Mask 增强更好地识别增强的物体感知区域。

4.6.3 Semantic Feature Alignment module

为了研究语义特征对齐（SFA）模块对模型性能的影响，作者在DFMSD模型中采用不同的配置，在教师和学生 Backbone 网络之间不同特征层进行语义对齐。与上述设置一致，作者使用具有ResNet101和ResNeXt101 Backbone 的级联 Mask R-CNN作为双教师，而学生检测器为RetinaNet-ResNet50。如表9所示，在教师和学生之间从P1到P3的每个FPN层进行语义对齐有助于生成一致的特征分布，从而获得最佳结果。这也表明，教师与学生之间的差距体现在每个特征层特征分布的变异性上。

4.6.4 Ablating each module within our DFMSD framework

在本节中，作者通过在实验中逐一移除上述三个模块来全面探索它们的作用。根据蒸馏设置，消融研究分为两组：异构蒸馏和同构蒸馏。在异构蒸馏中，教师模型是基于Transformer的ST-T和ST-S模型，而学生检测器使用的是RetinaNet-ResNet50。正如表10所示，当任何一个模块独立运行时，结果都不理想。特别是，当单独使用SAL时，获得了不错的40.8% mAP，但将其与ME和SFA模块结合后，从40.8%提升到41.2%，这显著表明将互补模块集成到双重 Mask 特征蒸馏框架中的益处。在针对同构蒸馏的消融研究中也获得了类似的结果，其中RetinaNet-ResNet101和RetinaNet-ResNeXt101作为教师模型，而RetinaNet-ResNet50作为学生模型。正如表11所示，当所有三个模块集成在一起时，可以获得最高的42.0% mAP。

Parameter Analysis

在本节中，作者将讨论涉及作者DFMSD模型的超参数设置。首先，通过使用不同的阈值进行各种实验评估，该阈值表示方程（4）中目标感知区域的尺度分布特性。如图9所示，当时，取得了最佳效果。这是合理的，因为当目标感知区域面积小于图像尺寸的一半时，图像很可能会包含较小的目标。相比之下，如果，图像可能由较大的目标构成。此外，作者还探索了方程（6）和（7）中的超参数和对模型性能的影响。如图10所示，当和分别设置为5.0 10 和2.5 10 时，获得了最高的42.9% mAP准确度，这表明不同项之间达到了平衡，以获得理想的折中。

5 Conclusion

在本研究中，作者提出了一种名为DFMSD的双重特征 Mask 阶段式蒸馏范式，以解决异构蒸馏问题。

更具体地说，作者建议将阶段式学习整合到双重特征 Mask 框架中，使得学生模型可以在不同的蒸馏阶段逐步适应不同的教师模型。

同时，在阶段式学习中引入 Mask 增强，以增强目标感知的 Mask 区域，从而改善 Mask 特征重建。

此外，还在教师与学生网络的不同FPN层之间进行语义对齐，以生成一致的特征分布。

通过融入上述所有模块，可以弥合教师与学生模型之间的差距，从而提升蒸馏性能。在COCO数据集上对不同设置下的目标检测进行了大量实验，证明了作者提出方法的有效性，并且在异构蒸馏场景中优于现有技术水平（SOTA）。

参考

[1].DFMSD: Dual Feature Masking Stage-wise Knowledge Distillation for Object Detection.

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

点击下方“阅读原文”，

了解更多AI学习路上的「武功秘籍」

DFMSD：面向目标检测的双特征Mask异质蒸馏框架 ！