论文推荐：在早期训练阶段预测下游模型性能-技术圈

来源：DeepHub IMBA
本文约1000字，建议阅读5分钟
本文提出了一种针对下游任务的有效神经网络选择的新框架。

预训练大规模深度神经网络(NN)，并针对下游任务进行微调已成为深度学习领域的现状。研究人员面临的一个挑战是如何为给定的下游任务有效地选择最合适的预训练模型，因为这个过程通常需要在模型训练中用于性能预测的昂贵计算成本。

在新论文 Neural Capacitance: A New Perspective of Neural Network Selection via Edge Dynamics 中，来自 Rensselaer Polytechnic Institute、Thomas J. Watson 研究中心和加州大学洛杉矶分校的研究小组提出了一种针对下游任务的有效神经网络选择的新框架。该方法利用模型的累积信息来预测模型的预测能力，在神经网络训练的早期阶段这样做可以节省资源。

该团队总结了他们的结论:

将神经网络训练看作是一个基于突触连接的动态系统，并首次从微观角度研究突触连接的相互作用。
提出了用于神经网络模型选择的神经电容度量βeff。
基于5个基准数据集的17个预训练模型的实验结果表明，我们的βeff方法优于现有的学习曲线预测方法。
在CIFAR10/CIFAR100/SVHN/Fashion MNIST/Birds上，根据训练前模型的性能，论文的方法比最佳基线提高了9.1/38.3/12.4/65.3/40.1%。

论文所提出的框架基于这样的思想，即神经网络训练期间的反向传播等效于突触连接（边缘）的动态演化，并且收敛神经网络与由这些边缘组成的网络系统的平衡状态相关联。它还借鉴了以前的研究，表明复杂的现实世界系统（例如植物-传粉媒介的相互作用和 COVID-19 的传播）可以用图网络进行表示。

研究人员将 NN 训练视为突触连接上的动态系统并首次以微观方式探索这些突触连接相互作用。他们提出“βeff”作为表征生物和人工神经网络的通用神经电容度量（neural capacitance metric），可以为可训练权重构建线图并以与一般动态系统相同的形式重新制定训练动态系统，使βeff属性能够在训练过程的早期阶段通过少量观察预测图神经网络的最终准确性。

该团队在 17 个预训练 ImageNet 模型上评估了他们的框架，包括 AlexNet、VGGs (VGG16/19)、ResNets (ResNet50/50V2/101/101V2/152/152V2)、DenseNets (DenseNet121/169/201)、MobileNets (MobileNet 和 MobileNetV2) ，Inceptions（InceptionV3，InceptionResNetV2）和Xception。他们还将基于 βeff 的方法与其他各种模型排名基线进行了比较。

在实验中，基于神经电容 βeff 的方法优于当前的学习曲线预测方法，并在 CIFAR10/CIFAR100、SVHN、Fashion MNIST 和 Birds 数据集的最佳基线上取得了显着的相对改进。

结果验证了 βeff 作为基于早期训练结果预测一组预训练模型的排名的有效指标。团队计划在未来探索更多的相关研究方向，例如简化邻接矩阵 P 以捕捉突触连接之间的依赖和相互交互，将框架扩展到 NAS 基准以选择最佳子网络，以及设计一种高效的算法直接基于 βeff 优化 NN 架构。

论文地址：

https://arxiv.org/abs/2201.04194