独家 | 综述:情感树库上语义组合的递归深层模型

数据派THU

共 2691字,需浏览 6分钟

 ·

2021-09-01 20:07

作者:Talha Chafekar

翻译:顾伟嵩

校对:阿笛


本文约1400字,建议阅读5分钟

本文探讨了单词和n-grams的不同组合方法,以及如何借助基于树的表示法,以自底向上的方式预测短语或单词的二元或多类(本例中为5)细粒度情感。

 


引言:本文探讨了单词和n-grams的不同组合方法,以及如何借助基于树的表示法,以自底向上的方式预测短语或单词的二元或多类(本例中为5)细粒度情感。作者提出了一个用于句子/短语表示的数据集“斯坦福树库(Stanford Treebank)”,以及一个用于预测细粒度情感标签的模型“递归张量神经网络(Recursive Tensor Neural Network)”。
 

数据集


作者介绍了一个数据集“斯坦福树库”,它由11855个句子组成,每个句子都用“斯坦福语法分析器(Stanford Parser)”进行了解析,生成了215154个短语,这些短语用Amazon Mechanical Turk进行标记。每个单词有五个可能的标签(负面的,较为负面的,中性的,积极的和较为积极的)。创建该数据集的主要动机是克服词袋无法考虑词序的问题,这在考虑对困难的事例负面分类问题是有帮助的。有关数据集和可视化表示,请访问此处(注:由于下载的文献里没有,需要去原网站看一下具体文章,从而设置一下超链接)。
 

概念


本文的思想基于以下概念:
 
a) 基于树的表示法:

一个句子被分解成多个单词,每个单词成为树的叶子节点。这背后的主要思想是捕捉一系列单词的感情思想。例如,让我们思考一个句子:“我不喜欢雨,但我喜欢冬天”。当我们用树表示这句话时,可以看到单词“dislike”的父元素得到一个负面的标签,但是,当我们推进到整个句子时,感情色彩因为单词“love”变得积极了。因此,由于这种表示法保留了词序,我们可以做出更准确的预测。

句子的基于树的表示法以及每个节点的情感 
 
b)组合函数:

组合性简单来说,就是把单词的意思放在一起考虑,或者说,一组词作为一个整体的语义是单词本身的语义的函数。本文运用这个思想,计算短语的向量表示,然后将其用作情感分类的特征。从直觉上讲,这是有道理的,因为单词放在一起考虑时的意思可能是不同的,单词单独考虑时的意思也可能是不同的。

以递归的方式计算双亲节点的组合函数
 
c)模型的递归性质:

用于该任务的模型是以递归的方式进行应用的。首先,用向量表示叶子节点。然后,这些向量以自下而上的方式被传递给它们的父节点的组合函数,并且被用作每个节点的分类任务的特征。因此,以这种方式,为父节点创建向量。这些已经被计算的向量是训练过程中更新的参数。最终,这些特征被提供给softmax分类器,以获得每个标签的概率。
 

模型


作者为该任务提出了“递归张量神经网络”模型。这个模型的主要动机来自于该领域的两项前期工作:
 
a) 递归神经网络(RNN):

由于数据的计算顺序本质上的递归的(父向量取决于它们的子向量),因此,RNN是用于此目的的合适模型。引入一个可学习的参数来找出每个子向量的父向量,并将tanh用作元素级非线性。
 
b)矩阵向量递归神经网络(MV-RNN):

这种形式的迭代神经中,每个单词用两个实体表示:a) 矩阵;b) 向量。
当计算父节点时时,用一个子节点的矩阵乘以另一个子节点的向量,反之亦然。
 
c)递归神经张量网络(RNTN):

RNTN的主要动机是针对RNN和MV-RNN的缺点。在RNN中,输入向量和输出向量的关系是通过一个学习参数和运用tanh计算的。然而,乘法方法可以实现更好的交互。在MV-RNN中,由于我们用一个矩阵作为单词/长短语的表示,参数的数量变得非常大,并且取决于词汇量的大小。因此,作者讨论了单个组合函数的使用,与上述缺点相比,它的性能更好。由于RNTN中的张量是多维的,它可以捕捉不同类型的组合。而且,如果张量设置为0,输出可以与输入直接相关。RNTN的一个缺点是,如果添加了任何额外的层,那么很难进一步优化模型。RNTN模型能够从结构上学习积极和消极的规则。
 

结论


因此,RNTN和情感树库允许在一系列单词上捕获细粒度情感。此外,与MV-RNN和biNB相比,它能很好地完成对比结合任务。
 

引用


 

哇!!结束了,期待这是一次好的阅读体验!


原文标题:A Review on ‘Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank’

原文链接:

https://talhachafekar.medium.com/a-review-on-recursive-deep-models-for-semantic-compositionality-over-a-sentiment-treebank-9c93a2cf4bed


编辑:黄继彦
校对:林亦霖

译者简介

顾伟嵩,中国科学院大学网络空间安全专业研究生。对数据科学领域充满好奇,渴望探索未知世界。课余时间喜欢踢足球、游泳。愿意挑战新事物,结交新朋友,一起进步,一起成长。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。


点击文末“阅读原文”加入数据派团队~



转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。



点击“阅读原文”拥抱组织



浏览 36
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报