Multi-modal Multi-task Masked Autoencoder：一种简单、灵活且有效的 ViT 预训练策略-技术圈

来源：Deephub Imba
本文约1000字，建议阅读4分钟
本文介绍了一种简单、灵活且有效的Vit预训练策略。

MAE是一种使用自监督预训练策略的ViT，通过遮蔽输入图像中的补丁，然后预测缺失区域进行子监督与训练。尽管该方法既简单又有效，但 MAE 预训练目标目前仅限于单一模态——RGB 图像——限制了在通常呈现多模态信息的实际场景中的应用和性能。

在新论文 MultiMAE: Multi-modal Multi-task Masked Autoencoders 中，来自瑞士洛桑联邦理工学院 (EPFL) 的团队提出了 Multi-modal Multi-task Masked Autoencoders (MultiMAE)，也是一种预训练策略，可以对掩码进行自动编码处理并执行多模态和多任务的训练。MultiMAE 使用伪标签进行训练，使该框架适用于任何 RGB 数据集。

MultiMAE 的设计基于传统的 Masked Autoencoding，但在两个关键方面有所不同：

1、除了 RGB 图像，它还可以选择接受输入中的附加模态信息（因此是“多模态”）

2、其训练目标相应地包括预测除 RGB 图像之外的多个输出（因此称为“多任务”）。

从架构上看，MultiMAE 的编码器是一个 ViT，但每个额外的输入模态都有补丁的投影层和一个带有可学习的额外全局令牌嵌入，类似于 ViT 的类令牌。所以仅加载所需的输入投影并忽略所有其他投影的MultiMAE 预训练权重可以直接用于标准单模态 ViT。

为了执行语义分割补丁投影，论文的作者用学习的 64 维的类嵌入替换每个类索引。并且仅对可见标记的随机子集进行编码，这样可以显著的加速计算和减少内存使用，并且使用了具有三种密集输入模态的 MultiMAE 多模态预训练。每个任务使用一个单独的解码器，因此解码器的计算随着任务的数量线性扩展，并且只增加了最小的成本。

在他们的研究中，图像分类、语义分割和深度估计这三个任务上对 MultiMAE 进行了预训练，并在 ImageNet-1K 上进行伪标记，然后在 ImageNet、ADE20K、Taskonomy、Hypersim 和 NYUv2 数据集上进行微调。

结果表明，当只使用RGB 进行微调时，MultiMAE 保留了常规 MAE 的优势，并且它还可以利用深度等其他模态，例如使用伪标记深度或语义分割来提高性能。MultiMAE 预训练策略可以显著提高迁移性能。

该项目的在 GitHub 上也公开了代码、预训练模型和交互式可视化。论文 MultiMAE: Multi-modal Multi-task Masked Autoencoders 公开资料汇总地址如下：https://multimae.epfl.ch/

编辑：王菁

校对：王欣