独家 | 综述：情感树库上语义组合的递归深层模型-技术圈

作者：Talha Chafekar
翻译：顾伟嵩
校对：阿笛

本文约1400字，建议阅读5分钟
本文探讨了单词和n-grams的不同组合方法，以及如何借助基于树的表示法，以自底向上的方式预测短语或单词的二元或多类（本例中为5）细粒度情感。

引言：本文探讨了单词和n-grams的不同组合方法，以及如何借助基于树的表示法，以自底向上的方式预测短语或单词的二元或多类（本例中为5）细粒度情感。作者提出了一个用于句子/短语表示的数据集“斯坦福树库（Stanford Treebank）”，以及一个用于预测细粒度情感标签的模型“递归张量神经网络（Recursive Tensor Neural Network）”。

数据集

作者介绍了一个数据集“斯坦福树库”，它由11855个句子组成，每个句子都用“斯坦福语法分析器（Stanford Parser）”进行了解析，生成了215154个短语，这些短语用Amazon Mechanical Turk进行标记。每个单词有五个可能的标签（负面的，较为负面的，中性的，积极的和较为积极的）。创建该数据集的主要动机是克服词袋无法考虑词序的问题，这在考虑对困难的事例负面分类问题是有帮助的。有关数据集和可视化表示，请访问此处（注：由于下载的文献里没有，需要去原网站看一下具体文章，从而设置一下超链接）。

概念

本文的思想基于以下概念：

a）基于树的表示法：

一个句子被分解成多个单词，每个单词成为树的叶子节点。这背后的主要思想是捕捉一系列单词的感情思想。例如，让我们思考一个句子：“我不喜欢雨，但我喜欢冬天”。当我们用树表示这句话时，可以看到单词“dislike”的父元素得到一个负面的标签，但是，当我们推进到整个句子时，感情色彩因为单词“love”变得积极了。因此，由于这种表示法保留了词序，我们可以做出更准确的预测。

句子的基于树的表示法以及每个节点的情感

b）组合函数：

组合性简单来说，就是把单词的意思放在一起考虑，或者说，一组词作为一个整体的语义是单词本身的语义的函数。本文运用这个思想，计算短语的向量表示，然后将其用作情感分类的特征。从直觉上讲，这是有道理的，因为单词放在一起考虑时的意思可能是不同的，单词单独考虑时的意思也可能是不同的。

以递归的方式计算双亲节点的组合函数

c）模型的递归性质：

用于该任务的模型是以递归的方式进行应用的。首先，用向量表示叶子节点。然后，这些向量以自下而上的方式被传递给它们的父节点的组合函数，并且被用作每个节点的分类任务的特征。因此，以这种方式，为父节点创建向量。这些已经被计算的向量是训练过程中更新的参数。最终，这些特征被提供给softmax分类器，以获得每个标签的概率。

模型

作者为该任务提出了“递归张量神经网络”模型。这个模型的主要动机来自于该领域的两项前期工作：

a）递归神经网络（RNN）：

由于数据的计算顺序本质上的递归的（父向量取决于它们的子向量），因此，RNN是用于此目的的合适模型。引入一个可学习的参数来找出每个子向量的父向量，并将tanh用作元素级非线性。

b）矩阵向量递归神经网络（MV-RNN）：

这种形式的迭代神经中，每个单词用两个实体表示：a) 矩阵；b) 向量。

当计算父节点时时，用一个子节点的矩阵乘以另一个子节点的向量，反之亦然。

c）递归神经张量网络（RNTN）：

RNTN的主要动机是针对RNN和MV-RNN的缺点。在RNN中，输入向量和输出向量的关系是通过一个学习参数和运用tanh计算的。然而，乘法方法可以实现更好的交互。在MV-RNN中，由于我们用一个矩阵作为单词/长短语的表示，参数的数量变得非常大，并且取决于词汇量的大小。因此，作者讨论了单个组合函数的使用，与上述缺点相比，它的性能更好。由于RNTN中的张量是多维的，它可以捕捉不同类型的组合。而且，如果张量设置为0，输出可以与输入直接相关。RNTN的一个缺点是，如果添加了任何额外的层，那么很难进一步优化模型。RNTN模型能够从结构上学习积极和消极的规则。

结论

因此，RNTN和情感树库允许在一系列单词上捕获细粒度情感。此外，与MV-RNN和biNB相比，它能很好地完成对比结合任务。

引用

哇！！结束了，期待这是一次好的阅读体验！

原文标题：A Review on ‘Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank’

原文链接：

https://talhachafekar.medium.com/a-review-on-recursive-deep-models-for-semantic-compositionality-over-a-sentiment-treebank-9c93a2cf4bed

编辑：黄继彦

校对：林亦霖

译者简介

顾伟嵩，中国科学院大学网络空间安全专业研究生。对数据科学领域充满好奇，渴望探索未知世界。课余时间喜欢踢足球、游泳。愿意挑战新事物，结交新朋友，一起进步，一起成长。

翻译组招募信息

工作内容：需要一颗细致的心，将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生，或在海外从事相关工作，或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到：定期的翻译培训提高志愿者的翻译水平，提高对于数据科学前沿的认知，海外的朋友可以和国内技术应用发展保持联系，THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利：来自于名企的数据科学工作者，北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载，请在开篇显著位置注明作者和出处（转自：数据派ID：DatapiTHU），并在文章结尾放置数据派醒目二维码。有原创标识文章，请发送【文章名称-待授权公众号名称及ID】至联系邮箱，申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱（见下方）。未经许可的转载以及改编者，我们将依法追究其法律责任。

点击“阅读原文”拥抱组织