↑ 点击蓝字关注极市平台

作者丨VincentLee

来源丨晓飞的算法工程笔记

编辑丨极市平台

极市导读

本文的三个章节分别介绍了FBNet、FBNetV2和FBNetV3的设计思路、实现方法和实验结果，展现出该系列不断进行创新性改进的过程。>>加入极市CV技术交流群，走在计算机视觉的最前沿

FBNet系列是完全基于NAS方法的轻量级网络系列，分析当前搜索方法的缺点，逐步增加创新性改进，FBNet结合了DNAS和资源约束，FBNetV2加入了channel和输入分辨率的搜索，FBNetV3则是使用准确率预测来进行快速的网络结构搜索。

FBNet

论文: FBNet: Hardware-Aware Efficient ConvNet Design via Differentiable Neural Architecture Search | CVPR 2019

论文地址：https://arxiv.org/abs/1812.03443
论文代码：https://github.com/facebookresearch/mobile-vision

Introduction

近期卷积网络的设计除了注重准确率之外，还需要兼顾运行性能，特别是在移动设备上的运行性能，这使得卷积神经网络的设计变得更加难，主要有以下难点：

Intractable design space，由于卷积网络参数很多，导致设计空间十分复杂，目前很多方法提出自动化搜索，能够简化人工设计的流程，但这种方法一般需要大量的算力。
Nontransferable optimality，卷积网络的性能取决于很多因素，比如输入分辨率和目标设备，不同的分辨率需要调整不同的网络参数，而相同block在不同的设备上的效率也可能大不相同，所以需要对网络在特定的条件下进行特定的调优。
Inconsistent efficiency metrics，大多数效率指标不仅与网络结构相关，也和目标设备上的软硬件设置有关。为了简化，很多研究都采用硬件无关的指标来表示卷积的效率，比如FLOPs，但FLOPs并不能总等同于性能，还跟block的实现方式相关，这使得网络的设计更加困难。

为了解决以上问题，论文提出FBNet，使用可微神经网络搜索(DNAS)来发现硬件相关的轻量级卷积网络，流程如图1所示。DNAS方法将整体的搜索空间表示为超网，将寻找最优网络结构问题转换为寻找最优的候选block分布，通过梯度下降来训练block的分布，而且可以为网络每层选择不同的block。为了更好的估计网络的时延，预先测量并记录了每个候选block的实际时延，在估算时直接根据网络结构和对应的时延累计即可。

Method

DNAS将网络结构搜索问题公式化为：

给定结构空间，寻找最优的结构，在训练好权值后，可以满足最小化损失，论文主要集中于3个因素：搜索空间、考虑实际时延的损失函数以及高效的搜索算法。

The Search Space

之前的方法大都搜索单元结构，然后堆叠成完整的网络，但实际上，相同的单元结构在不同的层对网络的准确率和时延的影响是大不相同的。为此，论文构造了整体网络结构(macro-architecture)固定的layer-wise搜索空间，每层可以选择不同结构的block，整体网络结构如表1所示，前一层和后三层的结构是固定的，其余层的结构需要进行搜索。前面的层由于特征分辨率较大，人工设定了较小的核数量以保证网络的轻量性。

layer-wise搜索空间如图3所示，基于MobileNetV2和ShuffleNet的经典结构设计，通过设定不同的卷积核大小(3或5)、扩展率以及分组数来构造成不同的候选block。若block的输入和输出分辨率一致，则添加element-wise的shortcut，而若使用了分组卷积，则需要对卷积输出进行channel shuffle。

论文的实验包含9种候选block，每种block的超参数如表2所示。另外，还有skip结构，直接映射输入到输出，用来缩短整体网络的深度。总体而言，整体网络包含22个需要搜索的层，每层从9个候选block中选择，共有种可能的结构。

Latency-Aware Loss Function

公式1中的损失函数不仅要反映准确率，也要反应目标硬件上的时延。因此，定义以下损失函数：

表示交叉熵损失，表示当前结构在目标硬件上的时延，控制整体损失函数的幅值，调整时延项的幅值。时延的计算可能比较耗时，论文使用block的时延lookup表格来估计网络的的整体：

为结构中层的block，这种估计方法假设block间的计算相互独立，对CPUs和DSPs等串行计算设备有效，通过这种方法，能够快速估计种网络的实际时延。

The Search Algorithm

论文将搜索空间表示为随机超网，超网为表1整体结构，每层包含9个表2的并行block。在推理的时候，候选block被执行的概率为：

包含决定层每个候选block采样概率的参数，层的输出可表示为：

是随机变量，根据采样概率随机赋值，层输出为所有block的输出之和。因此，网络结构的采样概率可表示为：

包含所有block的，基于上面的定义，可以将公式1的离散优化问题转换为：

这样，权值是可导的，但仍然不可导，因为的定义是离散的，为此将的生成方法转换为Gumbel Softmax：

为Gumbel分布的随机噪声，为温度参数。当接近0时，类似于one-shot，当越大时，类似于连续随机变量。这样，公式2的交叉熵损失就可以对和求导，而时延项也可以改写为：

由于使用lookup表格，所以是个常量因子，网络的整体时延对和也是可导的。至此，损失函数对权值和结构变量都是可导的，可以使用SGD来高效优化损失函数。

搜索过程等同于随机超网的训练过程，在训练时，计算更新超网每个block的权值，在block训练后，每个block对准确率和时延的贡献不同，计算来更新每个block的采样概率。在超网训练完后，通过采样网络分布得到最优的网络结构。

Experiments

与各轻量级网络对比在ImageNet上的性能对比。

特定资源和设备条件下的性能对比。

Conclustion

论文提出一种可微的神经网络搜索方法，将离散的单元结构选择转换为连续的单元结构概率分布，另外将目标设备时延加入到优化过程中，结合超网的权值共享，能够快速地端到端地生成特定条件下的高性能轻量化网络。不过论文的block框架基于目前主流MobileNetV2和ShuffleNet设计，更多地是对其结构参数进行搜索，所以在网络结构有一定的束缚。