Transformer细节解读-技术圈

本系列将对Transformer的关键细节进行解读，尽可能用数学语言阐述，要读懂本系列的读者，只需具备基础的线性代数知识即可。

self-attention

attention定义如公式(1)所示：

当时，就是所谓的“self-attention”。在主流深度学习框架中，只要求。

不妨设，这里表示词序列的长度，表示词序列的长度，表示每个词向量的维度，那么公式(1)中的。首先将展开来写：

其中，，表示单个词向量。接下来对进行展开：

其中，表示向量的内积，用来衡量向量和向量的相似度，越大则表示向量和向量越相似。表示按行依次对中每行所在位置的元素进行操作，即：

是单增函数，即越大，越大。

最后对展开：

公式(5)中任一行向量表明，和越相似，的系数越大，即在结果行向量贡献的比例越大。换另一种角度理解，建模了词序列中各个词向量和词向量的相关关系。

softmax padding mask

由于词序列是不定长的，所以需要在后面进行零填充固定到统一长度，因此才会出现所谓的"padding mask"。

对分析（这里还没有进行softmax操作）。假定 ,即零填充向量，那么。由于表示向量和向量的相似度。往往假定，零填充向量和向量是最不相关的。因此，在进行softmax操作前，我们需要将，那么。

常规的做法

假设词序列的padding mask矩阵为词序列的padding mask矩阵为记，先将取反，然后乘以，其次加上，最后进行操作。

快速的做法

由于后面还要做query padding mask，所以词序列的padding mask矩阵是怎么样的，在这里没有任何关系，不妨假定为全矩阵。换句话说，只需要知道词序列的padding mask矩阵，直接对取反，然后乘以，其次加上，最后进行操作即可。

query padding mask

query padding mask只需：。但实际上，Transformer是不需要每次都做query padding mask，因为Transformer中的各个词向量是独立操作的，互不干扰了，即论文中的“并行”，所以只需在输出之前的最后一步做query padding mask即可。

关于缩放因子

缩放因子是为了防止不至于过大或过小（即正值更小，负值更大），那么做就比较平均。

multi-head self-attention (MHSA)

MHSA

不妨设，SA如公式(1)所示：

MHSA则分别先对进行线性升维操作（即全连接操作，参数不共享），输出，然后按“头”做次，最后把结果拼接起来。如公式(2)所示：

其中，

说白了，MHSA就是分别先把进行线性升维，然后对每个“头”并行做，总共个“头”，最后把结果拼接起来。

时间复杂度分析

假定单个矩阵的运算使用常规做法，那么纯的时间复杂度如公式(4)所示：

MHSA的时间复杂度如公式(5)所示：

公式(5)中的表示MHSA做线性升维并行的开销时间，表示做多“头”并行的开销时间。

假定忽略并行开销的时间，且，那么有公式(6)：

公式(6)表明MHSA总可以通过调节来获得比更少的时间复杂度。通常，，因此总有：。

优势在哪里？

假定，那么MHSA既能用更少的时间复杂度，又能获得更好的性能。因为高维信息总是不劣于低维信息，比如：低维空间不可分的问题，高维空间可分；低维空间很难优化的，高维空间更容易优化，所以神经网络的向量维度都要逐步上升的。如果，MHSA的性能会低于SA，因为“先分后聚”的做法，还是会有损性能的。

但是仔细一想，不管是线性升维还是并行，都需要更多的内存开销，因此MHSA也属于用空间复杂度换时间复杂度的例子吧。

总结来说，MHSA的优势：

“分治的思想，充分利用显卡的并行性，通过空间复杂度换取时间复杂度。如果，那么还能有更好的性能”

值得注意的是，并行在移动终端和嵌入设备，表现得不好~

通常来说，基于Transformer的神经网络模型只在两处做padding mask，一处是在多头注意力中做softmax padding mask（当然，有多个Transformer就有多个softmax padding mask），另一处是loss前的最后一步做padding mask。

为什么Transformer只在多头注意力中做softmax padding mask？其他层呢？不是说padding mask很重要吗？

不急，一步一步来回答。列举一下Transformer的组件：多头注意力层、全连接层、Dropout层、激活函数层、LN层和add层。

首先，Dropout层、激活函数层和add层对词序列中的各个词向量是独立操作的，显然成立，那么本应被零填充的词向量是什么，无关紧要，因为不会影响其他非零填充向量，所以只需在loss前的最后一步做padding mask。

其次，全连接层对词序列中的各个词向量也是独立操作的，因为全连接层会给每个词向量都独立分配一个向量权重和偏置参数，也是易得（有兴趣的读者，自己可以推导一下），那么本应被零填充的词向量是什么，无关紧要，因为不会影响其他非零填充向量的参数训练，所以也只需在loss前的最后一步做padding mask。

最后，就只剩下LN层了。大部分深度学习框架都是沿着词向量维度做标准化，然后参数也是沿着词向量维度。换句话说，所有词向量共享一个向量参数和一个向量参数。那么本应零填充却没有零填充，会不会影响共享向量参数的更新呢？

LN层的独立

答案是不一定会。要看场景，比如：A、B、C共用一台电脑，C每次使用电脑，都恢复电脑原样，那么在A和B看来，电脑只被A和B共用，因为C不会改变电脑。

对应到神经网络中，“C每次使用电脑，都恢复电脑原样”对应只在loss前的最后一步做padding mask，“C不会改变电脑”对应零填充向量不改变共享参数的更新。

那么，只在loss前的最后一步做padding mask，零填充向量是否会改变共享参数的更新，即是否参与共享参数的梯度计算呢？答案是不会。这里笔者就直接把最后的结果写出来，推导还是比较繁琐的，具体可以参考BN的反向传播推导：

其中，表示词序列，表示 mask向量，所在位置为0，那么该位置为零填充。由公式(1)表示，只需在loss前的最后一步做padding mask，那么零填充不会参与共享参数梯度的计算。当然，公式(1)不是严谨的推导，只是大概表达了零填充向量不参与共享参数的梯度计算。

结论

共享，不等价于一定不能相互独立。要看场景。就好比，对所有进程，CPU是共享的，但当某进程使用时，就是独占CPU的，所以感觉就是，每个进程独立使用一个CPU。

Transformer细节解读