万字长文:近年来学界、业界视角下的“事理图谱”发展总结与思考
一、引言
大部分技术都会经历从提出,到验证,再到修正,再到落地的这样一个过程。事理图谱这个概念从国内学者自2017年提出到现在,已经经历了近4年的时间,那么在这四年的时间里,事理图谱目前处于一个什么样的状态。学界通常会抽离和建模一些确定的问题,业界则更倾向于从解决实际业务问题出发来复制、检验技术。作为参与国内事理图谱技术落地探索的一个参与者,对于事理图谱的工作开展了不少,并且也不断地在反思事理图谱在整个发展过程中的一些现实问题。
我在事理图谱中的工作中,有几篇代表性工作可以作为参考,列举其中的十篇,以增加对事理图谱的整个发展变化以及具体问题的认知,如下:
1、《我们的实践:事理图谱,下一代知识图谱》,地址:https://blog.csdn.net/lhy2014/article/details/85247268。这篇文章是2018年写的,关于事理图谱的第一篇文章,初步地介绍了关于事理图谱的一些想法和认识。
2、《知识表示发展史:从一阶谓词逻辑到知识图谱再到事理图谱》,地址:https://blog.csdn.net/lhy2014/article/details/86470565。这篇文章中,将事理图谱定义为一种规则类的知识表示方法,并展示了利用事理图谱进行事件监测预警的应用平台雏形。
3、《我们的实践: 400万全行业动态事理图谱Demo》,地址:https://blog.csdn.net/lhy2014/article/details/86516706,全行业金融事理图谱的可视化雏形系统,第一次展示了事理图谱的具像化形式。
4、《事件抽取与事理图谱的N个问题》,地址:https://blog.csdn.net/lhy2014/article/details/89115787,开始思考事理图谱中的若干个问题。
5、《事理图谱概念辨析及其与风险标签分类结合的应用探讨》,地址:https://blog.csdn.net/lhy2014/article/details/90522846,对事理图谱概念进行辨析,并思考事理图谱的概念界定以及应用问题。
6、《50万抽象知识图谱项目(实体抽象、性状抽象与动作抽象)》,地址:https://blog.csdn.net/lhy2014/article/details/98483003,对外发布抽象知识图谱项目,提出利用外部知识库进行事件抽象的方法以及抽象资源。
7、《事理图谱:一种纯学术需求、无法落地、漏洞百出的新技术或新概念?》,地址:https://blog.csdn.net/lhy2014/article/details/102093751,一年后,开始审视事理图谱这个概念或技术本身存在的问题,全面反思。
8、《浅谈事理图谱认知:系统体系+领域收敛+人机协同+辅助范式》,地址:https://blog.csdn.net/lhy2014/article/details/102526880,由于事理图谱构建过程中存在质量问题,开始思考事理图谱的领域性、人机协同性以及辅助范式。
9、《全行业事理图谱V3.0正式发布:基于实证的由因求果、由果溯因,因果路径发现》,地址:https://blog.csdn.net/lhy2014/article/details/103058140,全行业事理图谱3.0发布,对事理图谱形态展示进一步细化,由因求果、由果溯因,因果路径发现的目的明确。
10、《实时事理逻辑知识库(事理图谱)终身学习项目-EventKGNELL(学迹)》,地址:https://blog.csdn.net/lhy2014/article/details/104942972,将终身学习引入至事理图谱建设,搭建起实时的事理图谱知识库学习框架,并将实证搜索引入事理图谱应用形态,以缓解事理图谱自身质量的可靠性。
从发文的脉络中,我们可以发现,整个事理图谱的研究与落地历程经历了从提出到反思,再到妥协的这样一个过程,当然,目前国内还有很多研究人员、单位、公司也在着手在进行事理图谱相关的研究工作。为了得到更为全局的信息,本文从学界与业界两个角度出发,对其进行简易的分析。
二、CNKI视角(学界)下的国内事理图谱研究
1、CNKI视角下的国内事理图谱研究定量分析
中国知网(CNKI)是收录国内文献期刊较为权威的一个数据库,可以通过检索相关主题词的方式,从该平台中得到有关该主题的研究情况。笔者以“事理图谱”作为主题词进行检索,得到了以下分析结果。
图1-CNKI中“事理图谱”为主题词的发文记录
上图展示了事理图谱者以主题在这几年的研究情况,从中我们可以看到,在记录的有效样(共27篇,其中硕士论文10篇,期刊论文17篇)中,国内的事理图谱研究开始自2018年,并且在2020年大规模上升(达到15篇),2021年过半发文数量也达到5篇,这一定程度上说明了“事理图谱”的热度。
2、CNKI视角下的国内事理图谱研究定性分析
分析一个热点的发展,通常可以从定性和定量两个角度进行分析。通过对事理图谱研究相关的文献主题进行统计分析,我们可以得到这些文献在这方面研究中的主题分布。下图从论文名称、论文时间、论文类型以及论文关键词四个方面对研究的文献进行了列举。
图2-CNKI中事理图谱论文研究的分布
通过对如上事理图谱文献的行文结构进行分析后,我们可以看到,当前的事理图谱主要集中在特定领域事件抽取、因果关系抽取、事件表示学习、事理图谱构建以及事理图谱的可视化与分析研究等几个方面,具体涉及事理图谱、事件同指消解、事件抽取、事件关系识别、事理知识库的构建及应用、因果关系抽取、事件表示学习。其中:
1)特定领域事件抽取。涉及融合义原的特定领域事件抽取、事件散三元组。在抽取方式上,包括融合字向量的DMCNN事件抽取、基于BERT+BiLSTM的事件抽取。
2)因果关系抽取。涉及基于模式匹配的显式因果关系抽取,包括:关联词知识库、因果关系模式及限制条件、关系模式匹配优先级排序、因果句法模式、因规则模板。基于依存语法分析的事件抽取方法;基于监督学习的隐式因果关系抽取,包括基于自注意力机制双向LSTM方法、基于预训练模型的有监督事件因果关系抽取、基于自训练的半监督事件因果关系抽取、基于Attention_BiLSTM的隐式关系抽取、基于BERT+Bi-LSTM+Attention+CRF抽取模型
3)事件表示学习。涉及事件的词向量表示,包括基于TF-IDF的事件词向量表示、基于word2vec的事件词向量表示、基于张量神经网络的事件表示学习、常识信息增强的事件表示学习,包括融合实体关系信息的事件表示学习、融合意图信息的事件表示学习、融合情感信息的事件表示学习、融合实体关系、意图、情感的事件表示联合学习。
4)事理图谱构建。包括事件同指消解、图的修剪、边转移概率的计算、事件因果强度研究(包括基于统计的因果关系强度计算、基于预训练模型的因果关系强度计算)等研究内容。
5)事理图谱的可视化与分析。涉及基于Neo4j图数据库的可视化研究、基于pyecharts的可视化、事件本体及施事者、受事者识别、事件时间流关系识别、子事件识别、事件关联度计算。
三、工业界视角下的国内事理图谱研究
从2017年,“事理图谱”这一概念提出以来到目前,已经经历了从概念普及、到demo研制,再到领域应用探索三个重要阶段(与诸多技术类似)。在这个概念的发展过程中自然是螺旋式地暴露出一些现实的问题,但也不可否认地取得了一定的进展。
1、事理图谱取得的进展
国内事理图谱的研究与应用在近年来已经有了一定的发展,主要体现在事理图谱基本轮廓的确定与传播、领域事理图谱雏形Demo的研制与应用探索、事理图谱在领域的复制与延伸三个方面。
1)事理图谱基本轮廓的确立与传播。坦白的说,事理图谱目前并没有一个十分确定、统一的内涵界定,国内不同的团队,从不同的角度对其进行了探索,并取得了相应的进展。这里说两个典型代表。一是以最早的哈工大团队为代表的学界,围绕着利用事理图谱服务于脚本预测、故事结尾生成等常识推理、常识库构建,从学术上界定了事理图谱的概念,并在CCKS会议、首届事理图谱会议、CCCF会刊上对其技术内涵进行了明确,并在国外会议上发表了利用事理图谱结构进行脚本预测等若干论文。另一个是以中科院软件所(数据地平线)团队为代表的业界(跨界),从以大规模非结构化文本中挖掘逻辑推理规则模式,以服务于金融投研推理等应用落地的角度出发,系统探索了金融事理图谱的若干关键性问题(形式化表示方式、事理图谱中事件转移的有效性、事理图谱自身层级性、事理图谱的落地性)、基于事理图谱的实时事件风险监控与推理,事理图谱与实体知识图谱进行实体链接推理等工作,形成了若干的开源技术系列文章(包括金融和情报领域)、CCKS论文、专利文献。国内的这两个主要团队,根据自身目的的不同,完成了相应的探索,并积累形成了若干的文章,并在一定程度上,对事理图谱基本轮廓的传播奠定了基础。相比较而言,前者更多的考虑利用事理图谱的思想来设计更好的推理模型(在事理图谱中事件的形式化表示、精细化构建等理论问题不太侧重),以完成常识推理、事件演绎等前沿课题研究(如对大规模英文文本,利用依存句法等抽取形成朴素的事件三元组,并为此建立事理图谱网络图,配合GNN等深度学习算法完成建模)。后者则更注重特定领域事理图谱的形式化构建问题和利用事理图谱进行领域落地的问题,与前者在知识范围内形成了一种互为补充之势,也正是这样一种补充(一扬一抑,人间清醒)。
2)事理图谱雏形Demo的研制与应用探索。实践是检验真理的唯一标准,一方面,具体的数据或者形态这种具像化的实物,才能真正意义上地让人对“事理图谱”这一抽象概念有个基础的认知。另一方面,通过针对具体的文本进行事理图谱构建才能具体地发现该技术在实践和落地过程中所暴露出的技术脆弱性、理想性以及风险性。同样的,目前关于领域事理图谱雏形的Demo,国内可见的主要包括有哈工大的金融领域事理图谱Demo(https://elg.8wss.cn),数据地平线的全行业事理图谱Demo(https://eg.datahorizon.cn)、
实时抽象事理学习与分析系统(学迹:https://xueji.datahorizon.cn)、
实时实例事理分析引擎系统(数地搜搜:https://soso.datahorizon.cn)等,与哈工大的金融领域事理图谱Demo相比,数据地平线的规模更大、形式也更为多样。例如,不止地局限于因果关系,还涉及事件的描述逻辑等关联逻辑,并从抽象事理和实例事理两个方面分别进行了探索。另外,开启了将事理图谱与产业链实体图谱相融合进行领域标的物路径预测的推理实例应用、将事理图谱应用于风险监控预测,对接实时新闻资讯流进行事理图谱数据的可更新等多种技术应用形态,总的来说,在落地实践探索上更为深刻。当然,国内也有一些其他单位发布的自研的雏形系统,这里不展开论述。
3)事理图谱在领域的复制与延伸
在前者进行事理图谱概念的确立与探索、事理图谱雏形与应用探索初具引导,事理图谱在各个领域如“知识图谱”一样,在诸多领域进行了快速的复制与传播。很明显的,首先,在学术科研领域,我们可以以文首中CNKI所呈现出来的情况来看,事理图谱在航空故障领域、金融领域、食品领域、情报领域、舆情领域中都有推广,虽然在具体复制的过程中存在着快速试水的嫌疑**(利用事理图谱构建的通用模式,对不同领域的数据进行配置或者个别在具体的具体细节上有若干差异优化)**后,构建起领域性的事理图谱,并在此基础上完成分析,但这确实也在一定程度上显示了事理图谱与领域数据结合的可能性,这个是在构建侧的。在构建侧上,通过与朋友的讨论过程中发现,已经出现了利用事理图谱来做深度学习模型的可解释分析、基于事理图谱来做领域事件推理验证等研究课题的延伸。其次,在工业界,事理图谱也在一些领域业务中有应用探索(撇开可能存在PR的大背景),例如阿里淘宝客服中使用事理图谱的思想,将客户会话的过程进行事件化,将事件之间的状态转移形式化为事理图谱的形态,以提升客服应答效率;百度搜索中将事理图谱应用于百度事件脉络,将新闻中的事件进行提取、关联与跟踪,以提升事件演化追踪的效率;丹渥智能将事理图谱与构建好的产业链图谱进行关联,对事件的传导进行建模,应用于金融领域事件监测;法律领域将事理图谱应用于案件推理与问答,如交通肇事案件判定中的要素状态转移;数据地平线将事理图谱应用于金融、情报、公安等领域,实现融合消息面与技术面的事件风险监测与标的物推理预测、领域事理逻辑的沉淀与管理,领域事件的聚合与演化追踪。这些复制和延伸的工作一方面积累了事理图谱的落地经验,也为反馈事理图谱技术难点积累了一线的检测语料。
2、事理图谱存在的不足
1)事理图谱技术本身的体系依旧不清晰
坦白的说,因为事理图谱到目前为止,还是一个很为初级的概念,因此在整个技术体系或者生态上还是依旧处于十分雏形的状态。实际上,虽然有的研究团队对事理图谱进行了界定,但大家对事理图谱的理解还是不一致,对事理图谱到底是一个什么样的存在实际上还并未有大成共识,例如事理图谱相较于知识图谱是个什么的定位,事理图谱中的事件是怎样的?与事件图谱有什么区别?与事件知识图谱有什么区别?事理图谱与事件本体之间的关系是怎样的,事理图谱是一种事件模式本体还是事件实例?事理图谱中所存储的知识是否具有一般性,等等。这些问题到目前为止,还未得到一个好的解答(当然,这个与知识图谱类似,需要一个过程),一个为人所共同接受的事理图谱技术体系也需要逐步建立,这个体系中应该要包括事理图谱包括事件的界定、事件关系的抽取、事件融合、事件要素提取、事件抽象、事件演化概率计算等多个技术核心点。
2)事理图谱中的事件界定“不明朗”
按照现有的事理图谱构建方法,事理图谱中至少包括事件以及事件关系这两种元素,而事件就是首当其冲的一个重要问题,因为一个典型的事理图谱抽取方法,是先识别出事件,然后再识别出两个事件之间的事件关系,是个流水线的工作。这个工作本质上与知识图谱三元组的抽取在任务上是等同的,但与实体识别不一样,一个实体,其边界(span)是较为清晰的,而事件则很难定义出明确的边界,因此当前常规的做法是以限定的事件触发词为锚点进行定位,然后以该事件触发词所关联的主语、谓语或者宾语作为依存依赖,形成事件三元组或者该事件触发词所在的短句或者长句作为事件进行事件表示,这实际上是一种退而求其次的做法,这可能也是ACE那种用框架来进行事件表示方法考虑的一个点(这样好建模)。因此抽取的对象是明确的,才会有后续模型的不断升级与更新,
关于事理图谱中的事件表示方案,我之前写过的早期文章中有介绍,并指出了各种事件表示的优缺点。文章认为,事件的表示可以用核心动词(这个在目前的学术界评测集semeval,cec中采用),一个短语(符合主谓宾、主谓、动宾结构),一个自然的语句(自然的语句能够最大程度地保留这个事件的信息,如包括程度、时间、时态等信息,并且在行文上通顺、流畅)。这几种方式都会有对应的优缺点,但直观感觉,用一个核心动词才作为一个事件的形式化表示明显是不够的,为了补充,就必须要用到与该动词适配的一些事件要素(如我们常见的ACE中的槽),会变成一个事件抽取的工作。作为短语的事件表示方法,则需要对识别出的句子进行抽象化,即将其中的主谓宾成分进行提取,移除一些虚词成分,因此通过借用停用词表或者停用词词性表的方式、基于依存句法分析来做【很显然这种方式是有误差的,当前在中文上最好的精度LAC不到80%】。使用自然语句的方式。好不在于保留的信息很多,但对于语句形式很复杂、语句很长,无效成分很多的情况是又会显得过于冗余,并且在下游进行融合等工作带来麻烦。
3)事理图谱中事件关系侧重“软柿子”
一个理想型事理图谱包括的关系是十分丰富的。如因果关系(智利地震,棕榈油供应收紧),时序关系(进入餐厅,入座餐桌),组成关系(参加婚礼,给新人随礼),上下位关系(货币贬值,人民币贬值)等。但,正如我们看的,目前公开可见的大部分文章,包括工业界,学界【期刊、学位论文】,都只集中在因果关系、上下位关系两种关系**(前者更甚)**上去做,并且在事件事件关系的量化上,依旧避免不了过分依赖于曝光量等统计信息,原因是很显而易见的。
其一,因果关系,因为因果关系本身是很好来明确的,通过一些显性的触发词,就可以从形式(感观)上觉得这个东西大概率是在描述因果,因此,因为有了显式触发词的标识,所以这种主观性的边界是相对确定的,所以在构造规模化可用于训练的标注数据在落实上成为可能。另外,也正是因为有语言形式上的特性,现有的一些语言知识库就可以派上用场,而这种形式下可以采用的方式就比较灵活,比如,可以使用枚举大量的因果模板,诸如A导致B,因为A所以B,来确定边界,或者用依存的方式进行提取。规模化的标注数据,使得现有的深度学习模型建模方法也成为可能(转换成典型的抽取任务。也可以转换成序列标注的方式,同时识别原因的span、触发词,结果的span来提取)。而相比较而言,顺承方式则没有那么好做,相应的,目前我们所能看到的顺承关系建模,大多都转换为新闻事件的时序演化关系来说,以新闻标题或者事件标题的抽象来作为事件,然后根据新闻事件的事件发布关系来定义出事件之间的顺承演化。
其二,上下位关系。与因果关系相比,上下位关系与因果关系不同,这种关系的显式程度不高,而挖掘出这种上下位关系对于事件的垂直层级(抽象)体系上来说,是个很好的方法。当前,就我目前能够看到的,事件上下位的挖掘方式包括基于模式的挖掘以及基于外部知识库的上下位生成两种方式,前者是一个抽取操作,可以通过枚举大量类似Hearst模式,如“A是B的一种、A是一种B”,来抽取形成<A,上位,B>这种结果,不过这种方式有个很大的问题,就是A和B中对事件的界限是很难搞定的,通过这种方式挖掘出来的A和B大部分都是实体(因为从语言的表达上来说,“范冰冰偷税漏税”是一种“明星偷税漏税”事件类似的说法会相对较少),**这也再次提及了事理图谱中关于事件的边界问题。**后者这种基于外部知识库的抽象方法,在效果上很大受限于外部知识库的规模和质量,例如,当前可用的外部抽象类知识库,包括我之前开源构建的上下位抽象知识库(https://github.com/liuhuanyong/AbstractKnowledgeGraph)。哈工大bigcilin、百度的解语组件,这种上下位抽象,实际上是一个模板化的工作,模板化的工作实际上是另一个技术问题,对于出现的词,通过替换成某个特定词在知识库中的上位词,既可以得到结果。但这种生成的效果不易控制,如一个词本身是歧义词(对应于多个上位词)时,整个抽象的过程就会大打折扣。当然,这种折扣是有方法来解决的,那就是引入上位链接的方式,将一个待抽象词,通过链接模型,链接至一个最佳的上位词,关于这一点,百度的解语框架(https://www.paddlepaddle.org.cn/textToKnowledge)中就对此进行了实践,有兴趣的朋友可以看看。
2)事理图谱中数据与Demo很“初级”
上文说到,事理图谱目前已经出现了一些原型系统,这些系统更多的还是属于探索性质的Demo或者半成熟状态,所以我们也可以很自然地感受到“事理图谱”作为一个新鲜的事物在具体技术概念与实践落地表现中所呈现出的“断崖式”落差(我之前写过一篇反思事理图谱的文章《事理图谱:一种纯学术需求、无法落地、漏洞百出的新技术或新概念?》https://blog.csdn.net/lhy2014/article/details/102093751)。从DEMO中所呈现的出来的效果,我们可以看到事理图谱在对因果关系的界定、事件的界定、因果事件的抽取准确性、事理图谱的建模、事件的领域性等多方面(尤其体现在构建侧)都存在诸多问题。而且,我们应该清晰的认识到,事理图谱系统能够成功落地,至少要解决两个问题,一个是事理图谱的构建,另一个是基于事理图谱的应用,前者是后者执行的必要前提(这个与知识图谱是一样的),目前事理图谱在构建侧如何无法取得在对事理图谱自身质量性能的提升,以及事理图谱在领域组织上的体系化(schema),那么就会长期处于Demo或者预言课题这种状态上。当然,事理图谱自身的质量的问题,有一些行业的解决方案,例如,利用人工转换的方式,将事理图谱的概念注入到具体业务场景当中,即将业务的动作或者状态进行事件化,将业务之间的流程进行事理化,建模成明确的事理关系,并在进行业务事件检索、事件转移、事件推理上充分发挥事理图谱作为规则或者时序状态上所呈现出的表示方法的优势。此外,在承认事理图谱结构化数据的质量精度不够的情况,与具体的行业业务场景进行结合,摸着石头过河,通过引入人工、调整业务交互方式,探索事理图谱作为规则传导,路径建模中的规律,可以进一步拓宽事理图谱应用的更多可能性。
四、国内事理图谱研究与应用的展望
实际上,在知识图谱技术落地还并不明朗的情况下,开展事理图谱技术的研究并且落地是不合时宜的,因为从技术本身来讲,其存在着太多的不确定性,而这种不确定性如果得不到妥善的合理的控制或者调和就会成为风险。但正如我们在前文中所梳理的事理图谱的一些情况,事理图谱取得了一定的进展,且存在一些不足。学界、业界根据自己不同的目标进行了相应的探索,但其出发点都是为了让这个技术能够尽可能接近完美地解决一些具体的问题。不过,我们需要清晰的认识到,一个技术能够解决问题的前提是,它具备解决这类问题的技术特性。
我们可以看到的是,知识图谱的价值在于其规范化的schema模式, 这种模式给出了一个建模具体业务数据的本体框架,是一种知识的建模方式,能够将多源的不同形式(结构化的、非结构化的)文本通过不同的处理方式,加工映射成为一个标准的统一的知识形式,从而实现对知识的标准化、精细化管理与关联分析,这是知识图谱的技术特性,因此,很多行业在逐步推动知识图谱在关联分析、知识治理、知识搜索的应用。而对于事理图谱而言,我们同样需要认识到事理图谱作为一个有别于知识图谱,所展现出来的不同的技术特性,这是这个概念不被证伪或者赖以成立的必要条件。通过查阅相关的问题先资料,我们可以初步地浅层地认为,事理图谱最大的技术特性,也同样体现在其建模思想,即从事件侧对知识的建模思想,即建模schema模式,这也是一种方法论。即 将具体业务中的动作、状态、行为进行事件化,将在时间序列中的状态关联、行为关联、动作关联、动作之间的层级体系进行转移刻画。
因此,上述的事理图谱这种特性使得我们可以充分利用事件之间的转移信息进行事件的演化推理分析,可以根据事件之间的层级体系进行事件的聚合和情报分析。因此,这种技术特性,也就标志着,我们必须将事理图谱作为一个本体(而不是一个类似于图神经网络的模型) 来看待,这个本体能够刻画一个典型业务场景或者领域中的事件类型、事件属性以及事件之间的关联,后面的技术算法开发以及业务应用,则变成在这个领域事件本体的基础上进行实例的抽取、实例的填充,来产生价值。因此,这又回到了刚才涉及到的一些关键的问题,领域事件的界定问题、领域事件体系的构建问题(这些都是无法回避的,而不是简单地进行行业适配、复制的研究),从事件演化模式的角度讲,从非结构化文本中无监督地挖掘出大量的因果事件对或者时序事件对,这个或许在完成舆情演化分析这类应用上还有用武之地,但要作为一种新型的领域性的知识来辅助于各行各业的建模,进一步地在这些事件对的基础上打上体系化、健全体系、领域性的标签,将是事理图谱技术发展需要考虑的问题。
写到这里,抬头看墙上的钟表,已经到了凌晨1点33分,已码万字长文。上述观点仅仅是个这几年工作的一些思考,不具备代表性,欢迎批评。当然,近年来学界、业界视角下的事理图谱发展,需要多方面的人一同去做,也需要明确其技术特性、尊重技术的客观规律,直面其中的一些关键问题,“人间清醒”。
关于作者
刘焕勇,liuhuanyong,现任360人工智能研究院算法专家,前中科院软件所工程师,主要研究方向为知识图谱、事件图谱在实际业务中的落地应用。
得语言者得天下,得语言资源者,分得天下,得语言逻辑者,争得天下。
1、个人主页:https://liuhuanyong.github.io。
2、个人博客:https://blog.csdn.net/lhy2014/。
欢迎对自然语言处理、知识图谱、事件图谱理论技术、技术实践等落地应用的朋友一同交流。