知识图谱与事件类图谱
共 6070字,需浏览 13分钟
·
2021-09-21 00:02
知识图谱与事件类图谱
一、知识图谱发展三个周期
知识图谱,从2012年谷歌正式将这一概念应用到工业界之后,到现在已经逐步走过了将近7年的时间,在这七年的时间里,知识图谱逐步经历了从概念兴起、概念泛化、技术挣扎与落地尴尬三个环节。
1、 知识图谱的概念兴起——起于谷歌,兴于搜索
知识图谱,真正以一种新鲜事物进入公众视野的时间大概是谷歌于2012年提出的knowledge graph,国内学者直接意译为“知识图谱”。(当然之前有科学知识图谱、语义网,不在此文讨论范围之内)。从字面意义上来说,知识图谱的核心包括两个,一个是knowledge,另一个是graph。Knowledge充当的是数据的类型角色,所刻画和描述的数据被称作是知识,graph充当的是数据组织和存储结构的角色,即图结构。数据这个点决定了知识图谱所能涵盖和刻画的领域和范围,图结构决定了数据的使用方式和应用方向。
2012年,谷歌首先抛出了知识图谱这个概念,并将其应用于提升搜索服务,在搜索效果上的直观体现主要还是集中于实体级别的搜索,通过内部实体之间的关联信息以及实体的属性等信息,在用户在进行实体搜索时,通过关联查询,以知识卡片的形式同时提供实体本身以及关联实体的信息,从而在给出什么是什么的情况下,再一度地给出此外还有什么的问题。简单的来说,这种搜索体验大致可以归为2点,一是搜索结果的目的简洁性,是一个实体或者实体属性,形式上更为确定,而非一个网页。而是搜索结果的上下文扩展,这里所说的上下文指的是实体的关联信息,这些关联信息能够在让用户知道多一点的情况下可进一步提升用户的点击兴趣。事实证明,谷歌这一做法是奏效的,新的搜索方式引领了一步新的潮流,并且随后被国内外同行争相跟进,如yahoo,Microsoft,facebook,百度,搜狗,阿里巴巴先后提出了自己的知识图谱并快速产品化。这类产品主要还是集中于搜索领域,归结的来说,即知识图谱起于谷歌,兴于搜索。
2、 知识图谱概念的泛化——虽有尝试,亦存跟风
当知识图谱起于谷歌,兴于搜索之后,借着搜索的东风以及搜索本身作为一种信息传播的工具,知识图谱这一概念开始经历第二个时期,即快速传播时期。主要传播的方式包括三个途径,一种是文字上的传播,关于大量知识图谱的报道,软文介绍在互联网上大规模传播,“知识图谱”、“knowledge graph”等关键词充斥于各个技术文章当中。二是视觉上的传播,“两个圆圈一条边,边上几个文字悬”的知识图谱形象化展示图片被大量生产出来,这似乎固化了知识图谱在大众心目中的物化形象,即知识图谱就是一张网,就是网中的可视化。三是听觉上的传播,如ccks为主要代表的会议,线上以及线下知识图谱讲座、课程使得“zhi shi tu pu”这个名词在人群中广为传播。这三种方式一同发力,直接将知识图谱这一概念的流行度推向高峰。而一旦一个名词性概念被广为流传和熟知之后,如ai一般,知识图谱恐怕难逃“知识图谱+”这样的命运,这里的“知识图谱+”与“互联网+”以及“ai+”一样,成为互联网创业中的基本标配,越来越多的项目向知识图谱靠拢,形式上,知识图谱在各个领域的快速应用,医疗知识图谱、法律知识图谱、食品知识图谱、农业知识图谱、金融知识图谱、产业链知识图谱、教育知识图谱等等,如雨后春笋般涌现。这些知识图谱的大量出现,归结的来说,虽有尝试,亦存跟风。知识图谱可以作为一个技术本身而存在,而不同的业务场景,不同的需求是否真正需要使用知识图谱从而完成所需目标就另当别论了。
3、 知识图谱概念的落地——踌躇满志,艰难不止
当一个新鲜事物被广为流传之时,即到达了一个顶峰之后,就必然不能停留在想象之中,想象中,很不同,与现实场景有很大不同,即现实场景下,就到了概念到实际应用的转化了。说到这,自然而然就要说到知识图谱本身的技术问题了。第一节说到,知识图谱核心包括数据-知识,结构-图谱,数据是最为重要的一点,目前运用数据进行产品研发和应用落地的重要前提就是数据的靠谱性,所谓的数据靠谱,主要体现在知识的准确性、实时性以及小众性三个方面。其中准确性是首要前提,错误的数据会导致错误的结论;实时性主要是尊重知识的客观属性,即动态性,社会是不断动态变化的,知识是不断动态实时更新的,旧的落后的数据无法保持得到的结论是可靠的;小众性主要是从知识的价值大小来说,“物以希为贵”这条定理很好的说明了这个问题,大众的知识是你有我有全都有的知识,这大众已知的知识对于后期的应用以及公司的竞争力来说,没有太大的意义。而如法律知识、军事知识、交易数据等私密或者只有少部分人能够获取的知识,才真正大有可为。因此,要真正意义上把握这三点,将知识图谱做好,其实是个“踌躇满志,艰难不止”的事情。在知识图本身技术上的局限性,从知识抽取-知识融合-知识更新这一长条知识工程pipeline上,知识图谱这一块的骨头可谓是相当难啃。
二、从实体到事件
当知识图谱作为一项技术和名词性概念进行发展之时,新的变体就会必然出现。知识图谱的基本组成单位,<实体,实体关系,实体>中,我们进行成分替换之后可以得到多种不同的类型,例如,我们将实体单位换成是一个事件,实体之间的关系换成是事件的关系,那么就可以得到以“事件”为核心的event knowledge graph。然而,目前关于event knowledge graph,概念不统一,因此,接下来可以展开论述。概念不统一,本质在于对event knowledge的界定不同,什么是事件知识,而事件又是什么?本身关于事件(event)的界定都不明确。目前关于事件的界定有很多,如目前ACE、TDT、chambers在做narrative event chain或者scripts中的事件,这些事件都给出了不同的解释。而从计算机处理事件来说,应该从以下几个方面去考虑一个事件:
1、事件的外部表示界定
知识图谱中的实体和实体关系都有唯一的一个表现形式进行表示,如名词性的“刘焕勇”,动词性的“毕业于”,形容词性的“美丽”等,这种唯一的表现形式提供了节点表示的可能。而如果要将节点替换成事件,用一种特定的字符串序列来表示事件,会出现什么情况?一个事件是一个名词还是动词,还是一个短语,还是一个主谓或动宾二元组,还是一个主谓宾三元组,还是一句描述,还是囊括更多信息的N元组?这些都是需要考虑的问题。目前广泛应用于scripts以及narrative chain中的以动词作为事件的表示方式往往太过于抽象,往往一些名词也可以充当事件,这个放在兼类现象严重的中文中问题更大。事实上,事件在外部形式上的表现方式,直接决定了事件在图谱中的组织方式和管理机制。
2、事件的内部信息表示界定
单纯以一个词来表示事件的方式往往太过于单薄和抽象,而一个事件之所以能够成为事件,那么最好的方式是能够使用尽可能少量的字符或者字段表达尽可能多的事件相关信息。在这个方面,ACE定义了8类事件,以及几十个小类的事件类型,人工地针对每个事件小类定义了槽即slot的概念,从不同的侧面围绕一个特定的事件触发词trigger words来进行事件描述。由于这种事件结构定义不具备普适性和拓展性,迁移成本特别高,因此,后期有人考虑使用framenet以及verbnet来解决这个问题,但依旧有限,而且这都是属于英文领域,对于中文,又会遇到“巧妇难为无米之炊”的问题。目前,关于事件的info-schema,可以自行搜索关于eventschema相关的框架,主要代表性的有国内上海大学的5元组事件表示,国外的semevent本体表示框架。
3、事件之间关系的表示界定
静态性的知识数量规模巨大,这决定了实体关系类型的丰富性,而相对于实体而言,事件之间的关系则相对较少,从大的方面来说,事件之间的关系主要包括空间关系和时间关系两个大类,两个大类底下能够继续下分,形成不同的子空间关系和子时间关系。空间关系和时间关系又可进一步聚类形成逻辑关系,不同的空间和时间关系组合决定了不同的逻辑关系。
三、事件类图谱的几个类别
根据事件外部表示以及关系的不同,事件类知识图谱主要有以下几种概念形式(此处为个人总结):
1、 事件知识图谱(event knowledge graph)
事件知识图谱,在这里,我更倾向于认为这个图谱本身更倾向于为一个事件知识库,而非知识图谱。事件知识图谱的工作主要围绕事件知识本身进行展开,关注点在于事件内部信息,如ACE中的8大类事件,将这几类事件中的信息进行抽取和填充就能够得到一个以特定事件类型作为分类标准的事件知识库,如婚姻事件库、爆炸事件库等。最近的工作包括自动化所关于金融事件知识图谱的工作,集中于资产冻结等少数几个特定事件的事件知识图谱。这种事件知识图谱中的事件由特定的事件类型及其槽构成,内部关系主要考虑包括事件论元之间的关联,对于外部事件之间的关联关注较少。
2、 抽象事理图谱(abstract event evolutionary graph)
抽象事理图谱,最早由哈工大信息检索实验室在narrative chain的基础上提出,目标是揭示事件之间的演化性,关系上主要考虑顺承和因果两种,在事件节点的设置上倾向于事件的抽象性,以原文短句的形式作为字符串表示,这种抽象性质决定了该事件不具备更为细致的内部事件信息,形式上很为简洁。但存在的挑战很多,例如如何抽象,以原文短句作为事件外部表示似乎看不到抽象的成分在,抽象的力度如何控制,不同的抽象粒度会得到不同的抽象结果。
3、 事件逻辑知识图谱(event logic knowledge graph)
事件逻辑知识图谱,是综合事件知识图谱和抽象事理图谱之间的一种知识图谱类型,该知识图谱既保留了事件知识图谱中事件内部信息的完备性,又保留了抽象事理图谱中外部事件表示的抽象性,具有完备性和抽象性双重特征。不过,事件逻辑知识图谱与事件图谱不同,事件逻辑知识图谱规避了事件知识图谱的领域特征,而采用统一的事件槽,即通用的事件N个论元组对事件表示,其中论元的设置综合考虑了回答5个W,1个H的问题的同时,更考虑事件的情绪、确定性、完成性、主观性、权威性等信息,并通过领域实体的增加与替换来达到对不同领域的适配。本质上来说,事件逻辑知识图谱的核心在于逻辑,而这种逻辑的本质特性是抽象性,因此事件之间的逻辑关系需要从底层的事件进行高度抽象而成,这种抽象主要体现在事件逻辑知识库中事件外部形式的表示上。与抽象事理图谱不同,由于有了底层具有丰富内部属性的实例事件作为支撑,可用于事件抽象的信息更多,在事件融合方面带来了极大的便利,另外在事件之间的关系上,进一步进行扩展,可以形成对立、条件、部分与整体等多种逻辑网络。
四、事件类图谱的几个重要问题
在实际的理论研究和生产过程当中,我们发现,以下几个方面的问题需要急需解决。
1、事件关系语料库的构建与融合。目前关于这方面的英文语料库主要有timebank以及propbank,中文的有突发事件cec语料库以及哈工大的篇章关系语料库等,这些语料库一方面在分布上较为分散,另外,在事件的标注上,还是局限于动词性词语作为事件表示。因此,更多类型的事件关系语料库需要构建,在标注的形式和规范上需要从词级别进一步转换成句子级别等。
2、事件关系抽取的任务规则转变。目前,时序事件评测以及因果事件评测任务大多转换成了一个序列标注任务或者文本分类问题来做,而这基于一个重要的前提,即数据集中明确标注了事件本身,我认为这样的任务与其说是抽取,不如说是分类,因为没有事件抽取的概念在。这样的评测任务,直接会造成在实际应用场景下无法直接使用。识别出事件这一个步骤需要提上日程,而不是在已标注好的事件上,做事件关系的判定之类的刷榜游戏,实际落地应用价值不是特别大。
3、事件类知识图谱的评估。这个问题是我们在工作过程当中,包括与别人讨论时必问的一个问题,即准确率的评估问题。事件逻辑知识图谱是目前我们工作的重点,我们在通用事件论元表示,抽象性事件关联抽取上做了一些工作。总结的来说,事件逻辑知识图谱从零到有,包括因果、顺承、对立等事件的抽取,事件内部论元的识别,事件的抽象与融合,事件的动态等一系列环节,组成一个具有误差传播的pipeline,每一个环节的准确率都需要进行评估。此外,在构建好的事件逻辑知识图谱当中,如何应用进行辅助决策,在应用层也需要进行准确性的量化。这些评估问题在标准数据集的构建以及评估方法上面临着诸多挑战,这是我们目前遇到以及正在解决的问题,可以关注我们的工作。
五、总结
知识图谱目前已经发展了近7年的时间,在这7年的时间里,知识图谱从兴起走向泛化,目前正处于从概念到落地的环节,还存在诸多挑战。正如知识图谱一样,事理图谱提的多了,大家对该概念的理解就会出现偏差,也就会对事件类图谱有不同的认识,本文介绍了我们在实际过程中对事件类图谱的认识,可以帮助大家扫扫盲区。另外,也正如知识图谱一样,事理图谱目前到了落地应用的环节,技术上存在多种问题需要解决,本文也提出了几个需要解决的问题,如事件关系语料库的构建、事件关系抽取任务规则的转变、事件类知识图谱的评估,大家也可以多想想关注此类问题。
关于作者:
1、刘焕勇,中科院软件所,lhy_in_blcu@126.com
2、我的github项目介绍:https://liuhuanyong.github.io
3、我的csdn博客:https://blog.csdn.net/lhy2014
4、我的公众号:老刘说NLP