Xception 网络

在 2017 年谷歌也是在 Inception- 的基础上推出 Xception，在性能上超越了原有的 Inception-V3。下面我们带大家见识一下 Xception 的庐山真面目吧!

简介

在 ception 中作者主要提出了以下一些亮点:

作者从 Inception- 的假设出发，解塊通道相关性和空间相关性，进行简化网络，推导出深度可分离卷积。
提出了一个新的 Xception 网络。

相信小伙伴们看到这里一定会发出惊呼，纳尼，深度可分离卷积不是在中提出的么? 在这里需要注意的是，在 ception 中提出的深度可分离卷积和 MobileNet 中是有差异的, 具体我们会在下文中聊到閣。

Xception的进化之路

在前面我们说过 Xception 是 Google 继 Inception 后提出的对 Inception- 的另一种改进，作者认为跨通道相关性和空间相关性应充分解塊（独立互不相关），因此最好不要将它们共同映射处理，应分而治之。具体是怎么做呢?

1、先使用的卷积核，将特征图各个通道映射到一个新空间，学习通道间相关性。

2、再使用或卷积核，同时学习空间相关性和通道间相关性。

进化1

在Inception- 中使用了如下图所示的多个这样的模块堆叠而成，能够用较小的参数学习到更丰富的信息。

进化2

在原论文中作者对于图 1 中的模块进行了简化, 去除 Inception-v3 中的 Pool 后, 输入的下一步操作就都是卷积，如下图 2 所示：

进化3

更进一步，作者对于简化后的 Inception- 模块中的所有卷积进行合并，什么意思呢?就是将 Inception- 模块重新构造为卷积，再进行空间卷积是标准的那种多通道的卷积），相当于把卷积后的输出拼接起来为一个整体，然后进行分组卷积。如下图 3 所示：

经过进化3这种操作后，自然会有以下问题：分组数及大小会产生什么影响？是否有更一般的假设？空间关系映射和通道关系映射是否能够完全解耦呢？

进化4

基于进化 3 中提出的问题, 作者提出了"extreme"版本的 Inception 模块，如下图 4 所示。从图4 中我们可以看出，所谓的" 版本其实就是首先使用卷积来映射跨通道相关性，然后分别映射每个输出通道的空间相关性，即对每个通道分别做卷积。

在此作者也说明了这种 Inception 模块的"extreme"版本几乎与深度可分离卷积相同，但是依然是存在以下区别的：

1、通常实现的深度可分离卷积（如 MobileNet 中) 首先执行通道空间卷积卷积），然后执行卷积，而 ception 首先执行卷积。

2、第一次操作后是否加 , Inception 中 2 个操作后都加入。其中"extreme"版本的Inception 模块为：

而普通的深度可分离卷积结构为：

而作者认为第一个区别不大，因为这些操作都是堆叠在一起的; 但第二个影响很大，他发现在"extreme"版本的 Inception 中与之间不用收敘更快、准确率更高，这个作者是做了实验得到的结论，后面我们会介绍。

Xception网络结构

在提出了上面新的模块结构后，认识卷积神经网络的特征图中跨通道相关性和空间相关性的映射是可以完全解塊的。因为结构是由 Inception 体系结构得到的"extreme"版本，所以将这种新的模块结构命名为 Xception, 表示"Extreme Inception"。并且作者还结合了 ResNet 的残差思想，给出了如下图 5 所示的基于 Xception 的网络结构：

实验评估

在训练验证阶段，作者使用了 ImageNet 和这两个数据集做验证。精度和参数量对比如下图所示，从图中可以看到，在精度上 Xception 在 ImageNet领先较小，但在上领先很多; 在参数量和推理速度上，Xception 参数量少于 Inception, 但速度更快。图6 ImageNet数据集上精度对比

如下图所示，除此之外，作者还比较了是否使用 Residual 残差结构、是否在 Xception 模块中两个操作卷积和卷积)之间加入下的训练收玫速度和精度。从图中可以看出，在使用了 Residual 残差结构和去掉 Xception 模块中两个操作之间的激活函数下训练收玫的速度更快，精度更高。

图10 是否在Xception 模块中两个操作加入ReLu 的训练收敛速度和精度

总结

在 Xception 网络中作者解塊通道相关性和空间相关性，提出了"extreme"版本的 Inception 模块，结合的残差思想设计了新的 ception 网络结构，相比于之前的 Inception-V3 获得更高的精度和使用了更少的参数量。

这里给出 Keras 代码实现:

from keras.models import Modelfrom keras import layersfrom keras.layers import Dense, Input, BatchNormalization, Activationfrom keras.layers import Conv2D, SeparableConv2D, MaxPooling2D, GlobalAveragePooling2D, GlobalMaxPooling2Dfrom keras.applications.imagenet_utils import _obtain_input_shapefrom keras.utils.data_utils import get_file
WEIGHTS_PATH = 'https://github.com/fchollet/deep-learning-models/releases/download/v0.4/xception_weights_tf_dim_ordering_tf_kernels.h5'
def Xception():
 # Determine proper input shape input_shape = _obtain_input_shape(None, default_size=299, min_size=71, data_format='channels_last', include_top=False)
 img_input = Input(shape=input_shape)
 # Block 1 x = Conv2D(32, (3, 3), strides=(2, 2), use_bias=False)(img_input) x = BatchNormalization()(x) x = Activation('relu')(x) x = Conv2D(64, (3, 3), use_bias=False)(x) x = BatchNormalization()(x) x = Activation('relu')(x)
 residual = Conv2D(128, (1, 1), strides=(2, 2), padding='same', use_bias=False)(x) residual = BatchNormalization()(residual)
 # Block 2 x = SeparableConv2D(128, (3, 3), padding='same', use_bias=False)(x) x = BatchNormalization()(x) x = Activation('relu')(x) x = SeparableConv2D(128, (3, 3), padding='same', use_bias=False)(x) x = BatchNormalization()(x)
 # Block 2 Pool x = MaxPooling2D((3, 3), strides=(2, 2), padding='same')(x) x = layers.add([x, residual])
 residual = Conv2D(256, (1, 1), strides=(2, 2), padding='same', use_bias=False)(x) residual = BatchNormalization()(residual)
 # Block 3 x = Activation('relu')(x) x = SeparableConv2D(256, (3, 3), padding='same', use_bias=False)(x) x = BatchNormalization()(x) x = Activation('relu')(x) x = SeparableConv2D(256, (3, 3), padding='same', use_bias=False)(x) x = BatchNormalization()(x)
 # Block 3 Pool x = MaxPooling2D((3, 3), strides=(2, 2), padding='same')(x) x = layers.add([x, residual])
 residual = Conv2D(728, (1, 1), strides=(2, 2), padding='same', use_bias=False)(x) residual = BatchNormalization()(residual)
 # Block 4 x = Activation('relu')(x) x = SeparableConv2D(728, (3, 3), padding='same', use_bias=False)(x) x = BatchNormalization()(x) x = Activation('relu')(x) x = SeparableConv2D(728, (3, 3), padding='same', use_bias=False)(x) x = BatchNormalization()(x)
 x = MaxPooling2D((3, 3), strides=(2, 2), padding='same')(x) x = layers.add([x, residual])
 # Block 5 - 12 for i in range(8):  residual = x
  x = Activation('relu')(x)  x = SeparableConv2D(728, (3, 3), padding='same', use_bias=False)(x)  x = BatchNormalization()(x)  x = Activation('relu')(x)  x = SeparableConv2D(728, (3, 3), padding='same', use_bias=False)(x)  x = BatchNormalization()(x)  x = Activation('relu')(x)  x = SeparableConv2D(728, (3, 3), padding='same', use_bias=False)(x)  x = BatchNormalization()(x)
  x = layers.add([x, residual])
 residual = Conv2D(1024, (1, 1), strides=(2, 2), padding='same', use_bias=False)(x) residual = BatchNormalization()(residual)
 # Block 13 x = Activation('relu')(x) x = SeparableConv2D(728, (3, 3), padding='same', use_bias=False)(x) x = BatchNormalization()(x) x = Activation('relu')(x) x = SeparableConv2D(1024, (3, 3), padding='same', use_bias=False)(x) x = BatchNormalization()(x)
 # Block 13 Pool x = MaxPooling2D((3, 3), strides=(2, 2), padding='same')(x) x = layers.add([x, residual])
 # Block 14 x = SeparableConv2D(1536, (3, 3), padding='same', use_bias=False)(x) x = BatchNormalization()(x) x = Activation('relu')(x)
 # Block 14 part 2 x = SeparableConv2D(2048, (3, 3), padding='same', use_bias=False)(x) x = BatchNormalization()(x) x = Activation('relu')(x)
 # Fully Connected Layer x = GlobalAveragePooling2D()(x) x = Dense(1000, activation='softmax')(x)
 inputs = img_input
 # Create model model = Model(inputs, x, name='xception')
 # Download and cache the Xception weights file weights_path = get_file('xception_weights.h5', WEIGHTS_PATH, cache_subdir='models')
 # load weights model.load_weights(weights_path)
 return model