自然语言处理GRU

pytorch玩转深度学习

共 2262字，需浏览 5分钟

·

2021-05-24 23:25

1. 什么是GRU

GRU（Gate Recurrent Unit）是循环神经网络（Recurrent Neural Network, RNN）的一种。和LSTM（Long-Short Term Memory）一样，也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。

GRU和LSTM在很多情况下实际表现上相差无几，那么为什么我们要使用新人GRU（2014年提出）而不是相对经受了更多考验的LSTM（1997提出）呢。

下图1-1引用论文中的一段话来说明GRU的优势所在。

图1-1 R-NET: MACHINE READING COMPREHENSION WITH SELF-MATCHING NETWORKS（2017）

简单译文：我们在我们的实验中选择GRU是因为它的实验效果与LSTM相似，但是更易于计算。

简单来说就是贫穷限制了我们的计算能力...

相比LSTM，使用GRU能够达到相当的效果，并且相比之下更容易进行训练，能够很大程度上提高训练效率，因此很多时候会更倾向于使用GRU。

OK，那么为什么说GRU更容易进行训练呢，下面开始介绍一下GRU的内部结构。

2. GRU浅析

2.1 GRU的输入输出结构

GRU的输入输出结构与普通的RNN是一样的。

有一个当前的输入，和上一个节点传递下来的隐状态（hidden state），这个隐状态包含了之前节点的相关信息。

结合和，GRU会得到当前隐藏节点的输出和传递给下一个节点的隐状态。

图2-1 GRU的输入输出结构

那么，GRU到底有什么特别之处呢？下面来对它的内部结构进行分析！

2.2 GRU的内部结构

首先，我们先通过上一个传输下来的状态和当前节点的输入来获取两个门控状态。如下图2-2所示，其中控制重置的门控（reset gate），为控制更新的门控（update gate）。

Tips：为sigmoid函数，通过这个函数可以将数据变换为0-1范围内的数值，从而来充当门控信号。

图2-2 r，z门控

与LSTM分明的层次结构不同，下面将对GRU进行一气呵成的介绍~~~ 请大家屏住呼吸，不要眨眼。

得到门控信号之后，首先使用重置门控来得到“重置”之后的数据，再将与输入进行拼接，再通过一个tanh激活函数来将数据放缩到-1~1的范围内。即得到如下图2-3所示的。

图2-3 包含当前输入数据的h&amp;amp;amp;amp;amp;#39;

这里的主要是包含了当前输入的数据。有针对性地对添加到当前的隐藏状态，相当于”记忆了当前时刻的状态“。类似于LSTM的选择记忆阶段（参照我的上一篇文章）。

图2-4 GRU的内部结构

图2-4中的是Hadamard Product，也就是操作矩阵中对应的元素相乘，因此要求两个相乘矩阵是同型的。则代表进行矩阵加法操作。

最后介绍GRU最关键的一个步骤，我们可以称之为”更新记忆“阶段。

在这个阶段，我们同时进行了遗忘了记忆两个步骤。我们使用了先前得到的更新门控（update gate）。

更新表达式：

首先再次强调一下，门控信号（这里的）的范围为0~1。门控信号越接近1，代表”记忆“下来的数据越多；而越接近0则代表”遗忘“的越多。

有读者发现在pytorch里面的GRU[链接]写法相比原版对多了一个映射，相当于一个GRU变体，猜测是多加多这个映射能让整体实验效果提升较大。如果有了解的同学欢迎评论指出。

GRU很聪明的一点就在于，我们使用了同一个门控就同时可以进行遗忘和选择记忆（LSTM则要使用多个门控）。

：表示对原本隐藏状态的选择性“遗忘”。这里的可以想象成遗忘门（forget gate），忘记维度中一些不重要的信息。
：表示对包含当前节点信息的进行选择性”记忆“。与上面类似，这里的同理会忘记维度中的一些不重要的信息。或者，这里我们更应当看做是对维度中的某些信息进行选择。
：结合上述，这一步的操作就是忘记传递下来的中的某些维度信息，并加入当前节点输入的某些维度信息。

可以看到，这里的遗忘和选择是联动的。也就是说，对于传递进来的维度信息，我们会进行选择性遗忘，则遗忘了多少权重（），我们就会使用包含当前输入的中所对应的权重进行弥补。以保持一种”恒定“状态。

3. LSTM与GRU的关系

GRU是在2014年提出来的，而LSTM是1997年。他们的提出都是为了解决相似的问题，那么GRU难免会参考LSTM的内部结构。那么他们之间的关系大概是怎么样的呢？这里简单介绍一下。

大家看到 (reset gate)实际上与他的名字有点不符。我们仅仅使用它来获得了。

那么这里的实际上可以看成对应于LSTM中的hidden state；上一个节点传下来的则对应于LSTM中的cell state。1-z对应的则是LSTM中的 forget gate，那么 z我们似乎就可以看成是选择门了。大家可以结合我的两篇文章来进行观察，这是非常有趣的。

4. 总结

GRU输入输出的结构与普通的RNN相似，其中的内部思想与LSTM相似。

与LSTM相比，GRU内部少了一个”门控“，参数比LSTM少，但是却也能够达到与LSTM相当的功能。考虑到硬件的计算能力和时间成本，因而很多时候我们也就会选择更加”实用“的GRU啦。

浏览 108

点赞

收藏

分享

举报

评论

图片

表情

UBY自然语言处理

UBY是一个大规模的统一的文章资源,为自然语言处理(NLP)基于ISO标准词汇标记框架(LMF)。

go-freelingGolang 自然语言处理

go-freeling 是Golang 自然语言处理器。特性：文字符号化拆分句子形态分析后缀处理，附

HanLP自然语言处理

HanLP: Han Language Processing汉语言处理包HanLP 是由一系列模型与

go-freelingGolang 自然语言处理

go-freeling是Golang自然语言处理器。特性：文字符号化拆分句子形态分析后缀处理，附着词素代词的标记化灵活的多字识别收缩裂缝未登录词类别的概率预测命名实体检测词性标注基于图表的浅层分析命名

LingPipeJava自然语言处理

LingPipe是一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能，包括主题分类（TopClassification）、命名实体识别（NamedEntityRecogniti

LingPipeJava自然语言处理

LingPipe是一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能，包括主

HanLP自然语言处理

HanLP:HanLanguageProcessing汉语言处理包HanLP是由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清

自然语言处理 NLP

腾讯云自然语言处理（NLP）深度整合了腾讯内部顶级的 NLP 技术，依托千亿级中文语料累积，提供16项智能文本处理能力，包括智能分词、实体识别、文本纠错、情感分析、文本分类、词向量、关键词提取、自动摘要、智能闲聊、百科知识图谱查询等，满足各行各业的文本智能需求。

CRF++自然语言处理工具

CRF++是著名的条件随机场开源工具，也是目前综合性能最佳的CRF工具。CRF++本身已经是个比较老的工具了，但鉴于其性能较好，仍然是自然语言处理很重要的一个工具。NlpBamboo中文分词库在使用该

OpenNLP自然语言处理工具

OpenNLP是一个机器学习工具包，用于处理自然语言文本。支持大多数常用的NLP任务，例如：标识化、句子切分、部分词性标注、名称抽取、组块、解析等。

点赞

收藏

分享

举报