后ResNet时代的顶流EfficientNet-技术圈

关注"Smarter"，加"星标"置顶

及时获取最优质的CV内容

感兴趣的可以直接看视频，第一次做视频有很多瑕疵

其实，我对于EfficientNet流派的网络是排斥的，暴力搜索的方法看起来跟创新背道而驰，总觉得不太光彩，这对于深度学习的良性发展会产生一定的负面影响，EfficientNet可能是这个算力爆炸时代的必经之路吧，对工业界来说还是有一定的可取之处的。

下面来介绍一下EfficientNet和EfficientNetV2的设计思路，几个问题放在最后讨论

EfficientNet

经验上想要提升网络的精度和速度，就需要对width、depth和resolution三个维度进行平衡。那么如何同时对这三个维度进行平衡可以得到限制条件下最佳网络架构呢，之前的方法基本上都是对这三个维度的其中一个或者其中两个进行调参，通过实验来确定最佳的网络结构，显然这种手工得到的最佳很可能是局部最优，于是EfficientNet通过神经网络架构搜索(NAS)的方式同时对这三个维度进行平衡，搜索得到最优网络架构。

问题定义

首先将网络架构搜索定义成一个复合模型缩放优化问题，需要同时得到最优的width、depth和resolution。

假设一层卷积运算定义为 $Y _ { i } =\mathcal { F } _ { i } \left( X _ { i } \right)$ ， $X _ { i }$ 维度为 $\left\langle H _ { i } , W _ { i } , C _ { i } \right\rangle$ ，那么一个网络架构可以定义为：

$\mathcal { N } = \bigodot _ { i = 1 \ldots s } \mathcal { F } _ { i } ^ { L _ { i } } \left( X _ { \left\langle H _ { i } , W _ { i } , C _ { i } \right\rangle } \right)$

其中i表示第i个stage， $L _ { i }$ 表示第i个stage的卷积层数。

跟以往的网络架构设计不同的是，EfficientNet的网络搜索过程不改变 $\mathcal { F } _ { i }$ 的结构，只对width、depth和resolution三个维度进行缩放，然而在memory和flop是的限制条件下，搜索空间还是太大了，为了进一步缩小搜索空间，EfficientNet的所有卷积层统一进行缩放，即搜索出来的一组depth、width和resolution参数同时应用于所有卷积层。

通过上述假设定义，EfficientNet的网络架构搜索变成了一个带限制条件的多目标优化问题。

$\begin{array} { l l } \max _ { d , w , r } & \operatorname { Accuracy } ( \mathcal { N } ( d , w , r ) ) \\ \text { s.t. } & \mathcal { N } ( d , w , r ) = \bigodot _ { i = 1 \ldots s } \hat { \mathcal { F } } _ { i } ^ { d \cdot \hat { L } _ { i } } \left( X _ { \left\langle r \cdot \hat { H } _ { i } , r \cdot \hat { W } _ { i } , w \cdot \hat { C } _ { i } \right\rangle } \right) \\ & \operatorname { Memory } ( \mathcal { N } ) \leq \text { target_memory } \\ & \operatorname { FLOPS } ( \mathcal { N } ) \leq \text { target_flops } \end{array}$

其中w，d，r分别是width、depth和resolution三个维度的缩放系数。

问题定义完成后，就需要设计NAS搜索必需的三个东西：搜索空间、搜索策略和性能评估策略。

搜索空间

EfficientNet的最小搜索单元使用的是MBConv，整个网络架构搜索空间和MnasNet相同。先通过MnasNet得到最原始的EfficientNet-B0，然后通过复合缩放得到最优的EfficientNet-B0，最后得到一系列EfficientNet模型。

如上图所示，复合缩放主要由width、depth和resolution三个维度决定。(a)是一个baseline网络架构，(b)、(c)、(d)分别是对width、depth和resolution三个维度进行缩放，(e)是对width、depth和resolution三个维度进行复合缩放。比如(b)可以理解为width扩大2倍，(c)可以理解为depth扩大2倍，(d)可以理解为resolution扩大2倍，然后所有卷积层的缩放比例是一致的。

为了得到一系列不同大小的模型，EfficientNet提出compound scaling方法，通过一个复合系数来对width、depth和resolution三个维度进行统一缩放

$\begin{array} { l } \text { depth: } d = \alpha ^ { \phi } \\ \text { width: } w = \beta ^ { \phi } \\ \text { resolution: } r = \gamma ^ { \phi } \\ \text { s.t. } \alpha.\beta^2.\gamma^2\approx2 \\ \alpha\geq1,\beta\geq1,\gamma\geq1 \end{array}$

$\alpha,\beta,\gamma$ 通过一个小的grid search得到，直观上， $\phi$ 用来控制资源限制下的整体模型缩放， $\alpha,\beta,\gamma$ 用来控制depth、width和resolution三个维度的平衡。

因为网络架构的计算消耗主要由卷积决定的，那么一个搜索得到的网络架构比起baseline相当于FLOPS缩放了 $\left( \alpha \cdot \beta ^ { 2 } \cdot \gamma ^ { 2 } \right) ^ { \phi }=2 ^ { \phi }$ 倍。

4个缩放系数巧妙的将难以统一起来表示的depth、width和resolution给统一起来了，构成了一个可搜索的复合缩放搜索空间。

搜索策略

通过MnasNet相同的搜索方式搜索出最原始的EfficientNet-B0。EfficientNet通过两个搜索步骤，先确定最优的EfficientNet-B0，然后再确定EfficientNet-B1到EfficientNet-B7，两个步骤如下:

先将 $\phi$ 固定为1，然后通过一个小的grid srach搜索得到最优的 $\alpha,\beta,\gamma$ 三个缩放系数。EfficientNet-B0最优的缩放系数分别为 $\alpha=1.2,\beta=1.1,\gamma=1.15$ 。
然后固定住 $\alpha,\beta,\gamma$ ，缩放 $\phi$ 获得EfficientNet-B1到EfficientNet-B7。

最原始的EfficientNet-B0结构如上图所示。

性能评估策略

性能评估策略和MnasNet保持一致，使用

$A C C ( m ) \times [ F L O P S ( m ) / T ] ^ { w }$

作为优化目标，T和w作为平衡因子。

在当时大幅度超过之前的网络架构，如AmoebaNet、SENet等。

然而，深度可分离卷积当年用来降低参数量和FLOPS的操作，却成了使EfficientNet变慢的重要因素，为后续EfficientNetV2埋下了伏笔。

EfficientNetV2

EfficientNetV2指出了EfficientNet存在的三个问题：

EfficientNet在非常大的图片上训练速度慢。因为计算资源是固定的，图片尺寸的增大意味着更小的batch size，导致训练速度变慢。EfficientNetV2通过提出的Progressive Learning解决这个问题。
浅层的深度可分离卷积导致训练速度变慢。虽然深度可分离卷积比起普通卷积有更小的参数量和FLOPS，但是深度可分离卷积需要保存的中间变量比普通卷积多，大量时间花费在读写数据上，导致训练速度变慢。EfficientNetV2通过将浅层的MBConv替换成Fused-MBConv来解决这个问题。
每个stage的缩放系数相同是次优的。因为不同stage对训练速度和参数效率的贡献是不相同的。EfficientNetV2通过使用非均匀缩放策略来逐渐增加深层stage的层数。

Training-Aware NAS

为了解决2和3问题，EfficientNetV2提出了Training-Aware NAS。

搜索空间

搜索空间和MnasNet类似，EfficientNetV2的搜索空间为：operation types {MBConv、Fused-MBConv}，kernel size {3x3, 5x5}，expansion ratio {1, 4, 6}，为了缩小搜索空间，去掉了不必要的操作，并且复用MnasNet搜索得到的通道数。

其中MBConv和Fused-MBConv结构如下