当卷积网络遇上事件检测 (经典论文解读)

NLP情报局

共 2101字,需浏览 5分钟

 · 2021-03-24

0 前情提要

上一篇文章从初号机暴走的角度介绍了何为事件抽取,以及一个简单的事件抽取模型,后续本专栏将会解读以往论文,持续深入分析事件抽取任务,有疑问的伙伴可以后台留言哦。

今天介绍的是第一个把卷积网络(CNN)用于事件检测的工作。

论文标题:

Event Detection and Domain Adaptation with Convolutional Neural Networks

论文链接:

https://www.aclweb.org/anthology/P15-2060.pdf

1 克服痛点

一篇论文之所以存在价值,是因为能够解决以往研究工作无法解决的痛点。

在这个工作之前,事件检测采用的是传统特征工程方法,会带来以下的问题:1)越充分的特征所需的特征工程越复杂,付出的成本也就越多;2)构造特征的步骤会带来错误传递问题

卷积网络可以自动抽取文本特征,不需要复杂的特征工程,自然不存在上述的问题。

2 任务定义

事件检测任务可以说是事件抽取任务的简化版本,只需要检测出文本中是否存在特定类型的事件,例如:

“A police officer was killed in New Jersey today“

句子中,“killed“是”死亡“事件的触发词,该句子存在”死亡“事件。

既然是检测一个句子是否存在、以及存在何种事件类型,那么事件检测任务可以看作文本多分类任务,仅仅需要对句子进行语义编码,然后对其进行事件类型分类即可。

2015年,Nguyen和Grishman将CNN引进事件检测任务,实现了从传统特征工程方法到深度学习方法的跨越。

3 模型细节

模型如上图所示,句子中每个字符的向量在预训练词向量(300d)的基础上额外拼接了位置编码向量(50d)BIO实体类型编码向量(50d)。作者通过实验证明,额外拼接这两种向量可以带来性能提升。接下来是CNN的卷积和池化操作,最后输入全连接层进行事件类型分类。

在输入数据处理层面,对每个输入文本设置一个固定的长度31,截断超出的部分以及填充缺失的部分,每个输入文本对应一个事件类型的分类标签。

预训练词向量使用word2vec[1]初始化,位置编码向量和BIO实体类型编码向量随机初始化。输入字符通过查表获取向量编码,在模型训练过程中,这3个向量矩阵的参数随着网络更新优化至最佳性能。

4 数据集

作者采用的是ACE 2005语料库,该语料库存在下载权限,需要自行去官网(https://www.ldc.upenn.edu) 获取数据集权限。该数据集有33种事件子类型以及“无事件”,因此一共有34种分类标签。

5 实验分析

为了验证额外拼接的两种向量的效果,作者进行了消融实验,结果如下。可以看出拼接的两种向量对性能提升至关重要,在做其他文本分类的任务中也可以参考这点。

为了验证提出的CNN事件检测模型的效果,作者进行了不同模型的对比实验。CNN2(添加实体类型编码信息的CNN模型)实现了最优的性能。

CNN1(没有添加实体类型编码信息的CNN模型)的性能也比绝大多数对比模型的性能更优。

6 领域适应实验结果

特征工程本质上存在领域适应问题,在源领域进行的复杂的特征工程往往无法用于目标领域。

为了探究CNN方法用于事件检测任务的领域适应性问题,作者进行了一系列对比实验,将ACE 2005数据集中的“broadcast news“和“newswire”文本作为源领域,将“broadcast conversation”、“telephone conversation”和“webblogs”文本作为目标领域。通过在源领域训练模型,目标领域测试模型来评估模型的领域适应性问题。

实验结果显示,CNN2在源领域和目标领域的性能指标均达到了最优,证明了CNN适用于事件检测任务,可以在不同领域之间进行迁移。

推 荐 阅 读

参 考 资 料

[1] Tomas Mikolov, Greg Corrado, and Jeffrey Dean. 2013. Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS.

欢 迎 关 注

由于微信平台算法改版,订阅号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们帮我们点【在看】。星标具体步骤:

(1)点击页面最上方“NLP情报局”,进入主页

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦

感谢支持❤️

原创不易,有收获的话请帮忙点击分享、点赞、在看🙏

浏览 14
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报