【关于Transformer】那些的你不知道的事（中）-技术圈

作者：杨夕

项目地址：https://github.com/km1994/nlp_paper_study

论文链接：https://arxiv.org/pdf/1706.03762.pdf

【注：手机阅读可能图片打不开！！！】

个人介绍：大佬们好，我叫杨夕，该项目主要是本人在研读顶会论文和复现经典论文过程中，所见、所思、所想、所闻，可能存在一些理解错误，希望大佬们多多指正。

## 引言

本博客主要是本人在学习 Transformer 时的**所遇、所思、所解**，通过以 **十六连弹** 的方式帮助大家更好的理解该问题。

## 十六连弹

1. 为什么要有 Transformer?

2. Transformer 作用是什么？

3. Transformer 整体结构怎么样？

4. Transformer-encoder 结构怎么样？

5. Transformer-decoder 结构怎么样?

6. 传统 attention 是什么?

7. self-attention 长怎么样?

8. self-attention 如何解决长距离依赖问题？

9. self-attention 如何并行化？

10. multi-head attention 怎么解?

11. 为什么要加入 position embedding ？

12. 为什么要加入残差模块？

13. Layer normalization。Normalization 是什么?

14. 什么是 Mask？

15. Transformer 存在问题？

16. Transformer 怎么 Coding?

## 问题解答

### 六、传统 attention 是什么?

- 注意力机制是什么呢？

- 就是将精力集中于某一个点上

- 举个例子：

- 你在超市买东西，突然一个美女从你身边走过，这个时候你会做什么呢？

- 没错，就是将视线【也就是注意力】集中于这个美女身上，而周围环境怎么样，你都不关注。

- 思路

- 输入给定 Target 中某个 query；

- 计算权值 Score：

- 计算 query 和各个 Key 的相似度或相关性，得到每个 Key 对应 value 的权值系数；

- 对权值 Score 和 value 进行加权求和

- 核心：

- Attention 机制是对 source 中各个元素的 value 进行加权求和，而 query 和 key 用于计算对应 value 的权值系数

> $L_x=||Source||$代表Source的长度

- 概念：

- attention 的核心就是从大量信息中筛选出少量的重要信息；

- 具体操作：每个 value 的权值系数，代表其重要度；

- 具体流程介绍

- step 1：计算权值系数

- 采用不同的函数或计算方式，对 query 和 key 进行计算，求出相似度或相关性

- 采用的计算方法：

- 向量点积：

- Cosine 相似度计算：

- MLP 网络：

- step 2: softmax 归一化

- 原因：

1. score 值分布过散，将原始计算分值整理成所有元素权重之和为1 的概率分布；

2. 可以通过SoftMax的内在机制更加突出重要元素的权重；

- 公式介绍

- step 3: 加权求和

- 公式介绍：

- 计算结果 $a_i$ 即为 $value_i$ 对应的权重系数，然后进行加权求和即可得到Attention数值

- 存在问题

- 忽略了源端或目标端词与词间的依赖关系【以上面栗子为例，就是把注意力集中于美女身上，而没看自己周围环境，结果可能就扑街了！】

### 七、self-attention 长怎么样?

- 动机

- CNN 所存在的长距离依赖问题；

- RNN 所存在的无法并行化问题【虽然能够在一定长度上缓解长距离依赖问题】；

- 传统 Attention

- 方法：基于源端和目标端的隐向量计算Attention，

- 结果：源端每个词与目标端每个词间的依赖关系【源端->目标端】

- 问题：忽略了远端或目标端词与词间的依赖关系

- 核心思想：self-attention的结构在计算每个token时，总是会考虑整个序列其他token的表达；

- 举例：“我爱中国”这个序列，在计算"我"这个词的时候，不但会考虑词本身的embedding，也同时会考虑其他词对这个词的影响

- 目的：学习句子内部的词依赖关系，捕获句子的内部结构。

- 步骤

- embedding层：

- 目的：将词转化成embedding向量；

- Q，K，V 向量计算：

- 根据 embedding 和权重矩阵，得到Q，K，V；

- Q：查询向量，目标字作为 Query；

- K：键向量，其上下文的各个字作为 Key；

- V：值向量，上下文各个字的 Value；

- 权重 score 计算：

- 查询向量 query 点乘 key;

- 目的：计算其他词对这个词的重要性，也就是权值；

- scale 操作：

- 乘以；

- 目的：起到调节作用，使得内积不至于太大。实际上是Q，K，V的最后一个维度，当 $d_k$ 越大，就越大，可能会将 Softmax 函数推入梯度极小的区域；

- Softmax 归一化：

- 经过 Softmax 归一化；

- Attention 的输出计算：

- 权值 score 和各个上下文字的 V 向量的加权求和

- 目的：把上下文各个字的 V 融入目标字的原始 V 中

- 举例

- 答案就是文章中的Q，K，V，这三个向量都可以表示"我"这个词，但每个向量的作用并不一样，Q 代表 query，当计算"我"这个词时，它就能代表"我"去和其他词的 K 进行点乘计算其他词对这个词的重要性，所以此时其他词(包括自己)使用 K 也就是 key 代表自己，当计算完点乘后，我们只是得到了每个词对“我”这个词的权重，需要再乘以一个其他词(包括自己)的向量，也就是V(value)，才完成"我"这个词的计算，同时也是完成了用其他词来表征"我"的一个过程

- 优点

- 捕获源端和目标端词与词间的依赖关系

- 捕获源端或目标端自身词与词间的依赖关系

### 八、self-attention 如何解决长距离依赖问题？

- 引言：

- 在上一个问题中，我们提到 CNN 和 RNN 在处理长序列时，都存在长距离依赖问题，那么你是否会有这样几个问题：

- 长距离依赖问题是什么呢？

- 为什么 CNN 和 RNN 无法解决长距离依赖问题？

- 之前提出过哪些解决方法？

- self-attention 是如何解决长距离依赖问题的呢?

下面，我们将会围绕着几个问题，进行一一解答。

- 长距离依赖问题是什么呢？

- 介绍：对于序列问题，第 t 时刻的输出 $y_t$ 依赖于 t 之前的输入，也就是说依赖于，当间隔 k 逐渐增大时，$x_{t-k}$ 的信息将难以被 $y_t$ 所学习到，也就是说，很难建立这种长距离依赖关系，这个也就是长距离依赖问题（Long-Term Dependencies Problem）。

- 为什么 CNN 和 RNN 无法解决长距离依赖问题？

- CNN:

- 捕获信息的方式：

- CNN 主要采用卷积核的方式捕获句子内的局部信息，你可以把他理解为 **基于 n-gram 的局部编码方式**捕获局部信息

- 问题：

- 因为是 n-gram 的局部编码方式，那么当 $k$ 距离大于 $n$ 时，那么 $y_t$ 将难以学习 $x_{t-k}$ 信息；

- 举例：

- 其实 n-gram 类似于人的视觉范围，人的视觉范围在每一时刻只能捕获一定范围内的信息，比如，你在看前面的时候，你是不可能注意到背后发生了什么，除非你转过身往后看。

- RNN:

- 捕获信息的方式：

- RNN 主要通过循环的方式学习(记忆) 之前的信息$x_{t}$；

- 问题：

- 但是随着时间 $t$ 的推移，你会出现**梯度消失或梯度爆炸**问题，这种问题使你只能建立短距离依赖信息。

- 举例：

- RNN 的学习模式好比于人类的记忆力，人类可能会对短距离内发生的事情特别清楚，但是随着时间的推移，人类开始会对好久之前所发生的事情变得印象模糊，比如，你对小时候发生的事情，印象模糊一样。

- 解决方法：

- 针对该问题，后期也提出了很多 RNN 变体，比如 LSTM、 GRU，这些变体通过引入门控的机制来有选择性的记忆一些重要的信息，但是这种方法也只能在一定程度上缓解长距离依赖问题，但是并不能从根本上解决问题。

- 之前提出过哪些解决方法？

- 引言：

- 那么之前主要采用什么方法解决问题呢?

- 解决方法：

- 增加网络的层数

- 通过一个深层网络来获取远距离的信息交互

- 使用全连接网络

- 通过全连接的方法对长距离建模；

- 问题：

- 无法处理变长的输入序列；

- 不同的输入长度，其连接权重的大小也是不同的；

- self-attention 是如何解决长距离依赖问题的呢?

- 解决方式：

- 利用注意力机制来“动态”地生成不同连接的权重，从而处理变长的信息序列

- 具体介绍：

- 对于当前query，你需要与句子中所有 key 进行点乘后再 Softmax ，以获得句子中所有 key 对于当前query 的 score(可以理解为贡献度)，然后与所有词的 value 向量进行加权融合之后，就能使当前 $y_t$ 学习到句子中其他词$x_{t-k}$的信息；

### 九、self-attention 如何并行化？

- 引言：

- 在上一个问题中，我们主要讨论了 CNN 和 RNN 在处理长序列时，都存在长距离依赖问题，以及 Transformer 是如何解决长距离依赖问题，但是对于 RNN ,还存在另外一个问题：

- 无法并行化问题

- 那么，Transformer 是如何进行并行化的呢？

- Transformer 如何进行并行化？

- 核心：self-attention

- 为什么 RNN 不能并行化：

- 原因：RNN 在计算 $x_i$ 的时候，需要考虑到 $x_1 ~ x_{i-1}$ 的信息，使得 RNN 只能从 $x_1$ 计算到 $x_i$;

- 思路：

- 在 self-attention 能够并行的计算句子中不同的 query，因为每个 query 之间并不存在先后依赖关系，也使得 transformer 能够并行化；

### 十、multi-head attention 怎么解?

- 思路：

- 相当于 $h$ 个不同的 self-attention 的集成

- 就是把self-attention做 n 次，取决于 head 的个数；论文里面是做了8次。

- 步骤：

- step 1 : 初始化 N 组 $Q，K，V$矩阵(论文为 8组)；

- step 2 : 每组分别进行 self-attention;

- step 3：

- 问题：多个 self-attention 会得到多个矩阵，但是前馈神经网络没法输入8个矩阵；

- 目标：把8个矩阵降为1个

- 步骤：

- 每次self-attention都会得到一个 Z 矩阵，把每个 Z 矩阵拼接起来，

- 再乘以一个Wo矩阵，

- 得到一个最终的矩阵，即 multi-head Attention 的结果；

最后，让我们来看一下完整的流程：

换一种表现方式：

## 参考资料

1. [Transformer理论源码细节详解](https://zhuanlan.zhihu.com/p/106867810)

2. [论文笔记：Attention is all you need（Transformer）](https://zhuanlan.zhihu.com/p/51089880)

3. [深度学习-论文阅读-Transformer-20191117](https://zhuanlan.zhihu.com/p/92234185)

4. [Transform详解(超详细) Attention is all you need论文](https://zhuanlan.zhihu.com/p/63191028)

5. [目前主流的attention方法都有哪些？](https://www.zhihu.com/question/68482809/answer/597944559)

6. [transformer三部曲](https://zhuanlan.zhihu.com/p/85612521)

7. [Character-Level Language Modeling with Deeper Self-Attention](https://aaai.org/ojs/index.php/AAAI/article/view/4182)

8. [Transformer-XL: Unleashing the Potential of Attention Models](https://ai.googleblog.com/2019/01/transformer-xl-unleashing-potential-of.html)

9. [The Importance of Being Recurrent for Modeling Hierarchical Structure](https://arxiv.org/abs/1803.03585)

10. [Linformer](https://arxiv.org/abs/2006.04768)

【关于Transformer】 那些的你不知道的事（中）

【关于Transformer】那些的你不知道的事（中）