图谱讲义 | 第一讲-第3节-知识图谱的价值

DayNightStudy

共 4404字,需浏览 9分钟

 ·

2021-12-26 17:31

本讲义系列主要整理自浙江大学《知识图谱导论》(浙江省优秀研究生课程)的课程讲义。作为一门导论性质课程,该课程希望帮助初学者梳理知识图谱基本知识点和关键技术要素,帮助技术决策者建立知识图谱的整体视图和系统工程观,帮助前沿科研人员拓展创新视野和研究方向。


本次推文主要介绍讲义的“第一讲 知识图谱概论 第3节 知识图谱的价值”,更多相关内容请点击上方“话题”或文末“往期推荐”。



「前序讲义」🔗
第一讲-知识图谱概论 — 第1节-语言与知识
第一讲-知识图谱概论 — 第2节
-
知识
图谱的起源





这一节我们介绍知识图谱的价值和应用。





知识图谱有什么用处呢?知识图谱源于互联网,所以第一个落地的应用当然也是互联网搜索引擎。前面我们已经介绍过,谷歌在2012年推出知识图谱支持的新搜索引擎时,提出的口号是“Things,not Strings!”。


Web的理想是链接万物,搜索引擎最终的理想是让我们能直接搜索万事万物,这是非常朴素而且简单的理念。知识图谱支持的事物级别而非文本级别的搜索,大幅度提升了用户的搜索体验,因此,当前所有的搜索引擎公司都把知识图谱作为基础数据,并成立独立部门来持续建设。





知识图谱的第二类应用是智能问答。比如天猫精灵、小米小爱、百度度秘等背后都有知识图谱数据和技术的支持。智能问答本质就是一种对话式的搜索,相比起普通的搜索引擎,智能问答更加需要事物级的精确搜索和直接回答。智能厨房、智能驾驶、智能家居等都需要实现这种对话式的信息获取。

当前实现智能问答功能主要有三种形式,第一种是问答对,这种实现简单的建立问句和答句之间的匹配关系,优点是易于管理,缺点是无法支持精确回答。

第二种形式类似于Stanford的Squad竞赛这种形式,要求能够从大段文本中准确定位答案,这当然是我们终极期望的形式,但源于语言理解本身的困难比较难于完全实用。例如小米小爱的后台实现中,这种形式的问答仅仅能支持个位数百分比的问句。

第三种就是知识图谱,相对于纯文本,从结构化的知识图谱中定位答案要容易得多,同时比起问答对形式,因为答案是以关联图的形式组织,不仅仅能提供精准答案,还能通过答案关联非常便利的扩展相关答案。





推荐系统也是知识图谱的典型应用场景。例如,在电商的推荐计算场景中,我们可以分别构建UserKG和ItemKG。知识图谱的引入丰富了User和Item的语义属性和语义关系等信息,这将大大增强User和Item的特征表示,从而有利于挖掘更深层次的用户兴趣,关系的多样性也有利于实现更加个性化的推荐,丰富的语义描述还可以增强推荐结果的可解释性,让推荐结果更加可靠可信。




知识图谱也在大数据分析应用发挥重要作用。美国有一个著名的情报大数据公司叫PALANTIR,它的一个核心技术叫动态本体(Dynamic Ontology)。它允许数据分析人员根据自己的需要来定制构建一个Ontology。

例如在一个反恐场景中,需要定义恐怖分子、恐怖事件、高危区域等基本概念和它们之间的语义关系。PALANTIR再通过机器学习算法和自然语言处理技术从各种数据来源获取信息并灌入到这个Ontology中。

事实上,很多领域的大数据分析问题并不需要构建很复杂的算法模型,如果能根据分析的需要构建一个知识图谱,大部分大数据分析问题都可以转化为一个知识图谱上面的查询问题。当然有了图结构的数据,我们也可以更加容易的在知识图谱上叠加各种图算法,例如图嵌入算法、图神经网络等等。这些算法利用知识图谱中存在的关系进一步挖掘和推理未知的关系,从而大幅提升数据分析的深度和广度。

在后面会介绍到华为的一个真实场景,我们利用图数据融合大规模通信网络所产生的各种故障数据,构建故障诊断知识图谱,再叠加图神经网络算法对导致故障的根因进行识别,大幅提升故障诊断的效率和能力。




正如第一节就提到过,知识对于正确理解语言至关重要,因此自然语言处理领域也是拥抱知识图谱最多的领域之一。正如第一个自然语言理解系统SHRDLU作者Terry Winograd所指出的那样,当一个人听到或看到一句话的时候,他使用自己所有的知识和智能去理解。这不仅包括语法,也包括他的词汇知识、上下文知识,更重要的,是对相关事物的理解。

Winograd Schema Challenge是人工智能领域有关常识推理的竞赛。这个竞赛出了很多这样的题目,例如,在第一例子中,让机器阅读一句话,然后要求机器判断这个it是指代TheTrophy还是Suitcase。此外,还要求机器在把句子中的big换成反义词small之后,能够正确的选择相反的答案。这在自然语言理解中称为指代消解的问题。

但我们发现机器基本和瞎猜差不多。这是因为单纯从句子的字面,不论你怎么统计、计算、匹配都没有关于Trophy和Suitcase的空间大小的信息,机器自然无法做出判断。我们人可以迅速地做出正确的判断,这是因为人在判断时引入了大脑中的常识知识,即:Trophy通常是被装入Suitcase携带的,所以Suitecase肯定要比Trophy大。在后面的课程中,我们会专门介绍在自然语言处理模型中植入知识图谱的方法。




知识图谱对于那些凡是涉及语义理解的任务都有作用。除了文本语义的理解,在图像、视频等视觉理解任务中,知识图谱也能发挥作用。比如图中这个例子,我们看到一只海鸟,图片本身所包含的信息显然是有限的。

如果我们能引入知识图谱中关于海鸟的语义描述、关联的其它鸟等,就能大幅增强图片处理的深度和广度。比如,我们可以利用外源知识库中相关的鸟类信息来提升相似图片的检索效果。




语义和知识还在物联网领域有应用场景。OneM2M是物联网领域的一个国际联盟,它有一个独立的工作组,专门为物联网设备数据定义Ontology,这些物联网本体被用来对设备数据进行语义封装,从而提升物联设备之间的语义互操作能力。

例如,一个温度可能是人的体温、也可能是一个设备的温度,进一步理解这个温度数据还需要知道是在什么时间、什么位置等等,丰富的语义描述将大大提升物联设备数据的利用效率,终极的万物互联是设备通过规范化的语义进行数据层面的互联。




接下来我们简要的介绍几个典型的领域应用。我们和阿里团队联合构建了千亿级别的阿里新零售知识图谱,我们综合运用多项技术深度融合来自于天猫、淘宝、盒马等线上数据,来自于银泰百货、LAZADA等线下数据,以及舆情、百科、国家行业标准、竞品平台等外部数据,构建了百亿级实体数、千亿级关系边的商品知识图谱,并形成了一整套从建模、抽取、补全、融合、推理、推荐、问答、分析在内的算法和工具集,我们取了一个名字叫藏经阁知识引擎,用经书来比喻图谱,用藏经阁来比喻处理图谱数据的知识引擎。

目前,藏经阁知识引擎产品提供的数据、算法和工具服务于阿里集团旗下包括淘宝、天猫、盒马、饿了么、AliExpress、LAZADA等17个新零售电商平台。除了常见的搜索导购、商品推荐、客服问答类应用,我们还开发了新品发布、跨场铺货、平台合规审查等一系列新应用模式。

例如,在商家发品应用中,我们利用图谱数据和算法为新发商品自动预测品类、补全缺失属性、推荐能引导销售的商品关键属性,并利用知识图谱辅助自动生成商品广告,为卖家大幅节省维护商品信息的时间,覆盖淘宝天猫盒马等4.2亿+新发商品,商品发布时长平均降低25秒。





这也是我们团队早期尝试的一个应用领域。医疗健康因为知识体系复杂且具有专业性,所以一直是知识图谱和知识库技术的重要应用领域。

我们从2000年开始尝试将语义网技术引入到中医药领域,基本的想法是希望通过构建一个中间本体,把中医和西医的概念和数据关联起来,然后在此基础之上实现语义搜索、跨库检索、知识问答、文本纠错和集成挖掘分析等功能。




自动驾驶网络ADN是相对于软件定义网络SDN提出来的概念,是华为倡导的利用人工智能技术进一步提升通信网络自动化、智能化的新一代网络基础设施管理解决方案。

我们提出利用图数据融合集成包括业务投诉、故障现象、设备告警、系统日志、专家经验、外部环境等多种来源数据,构建自动驾驶网络知识图谱,并利用这个知识图谱关联网络故障诊断相关的文档、图片、案例等多模态数据,为运维专家提供更高效的故障信息检索和专家问答服务等功能,同时通过再叠加符号规则推理、图表示学习和图神经网络等技术方法,实现故障的根因分析、用户意图的翻译执行、自动运维规划等多种人工智能能力。

这个应用场景具有更一般化的通用性,给大型网络设备做诊断和维护类似于医生给病人看病,或者在金融场景中对股市异常做出根因判断等都和这个应用场景比较相似。知识图谱在这里起的主要作用是融合多来源的数据,并能基于知识图谱提供的推理能力实现高效率的决策分析功能。




金融也是知识图谱技术应用比较广泛的领域。例如,我们通过构建上市公司知识图谱分析企业与企业、人、行业、舆情事件、宏观要素之间的关联关系,研究重大新闻事件对关联企业的影响力传播。

利用知识抽取技术实现金融新闻、研报公报的自动结构化;利用图谱数据和推荐算法,实现信息咨询服务的精准推送和智能问答服务;在信贷领域,通过知识图谱提供数千万企业的行为数据关联建模、提高风险感知能力、风险传导识别,利用图谱数据和规则自动检测法律文本的合规性,从而减少信贷违约风险。




知识图谱当然还有更多的垂直领域应用。由于每个行业的知识体系和知识特点不一样,因此每个领域不仅要建自己的领域知识图谱,同时不同领域的建设方式和所用到的技术也有所不同。




知识图谱技术源于互联网,最早落地应用的也是搜索引擎、智能问答和推荐计算等技术领域。知识图谱支持通过规范化语义集成和融合多来源数据,并能通过图谱推理能力支持复杂关联大数据的挖掘分析,因此在大数据分析领域也有广泛应用。

不论是语言理解和视觉理解,外源知识库的引入都可以有力的提升语义理解的深度和广度。知识图谱在医疗、金融、电商、通信等多个垂直领域都有着广泛的应用,并且每个领域都有其独特的实现和实践方式。



往期推荐

# AAAI2022 | KCL: 化学元素知识图谱指导下的分子图对比学习

# 浙大图谱讲义 | 第一讲-知识图谱概论 — 第2节-知识图谱的起源

# 浙大图谱讲义 | 第一讲-知识图谱概论 — 第1节-语言与知识

# OpenKG开源系列 | 轻量级知识图谱抽取开源工具OpenUE

# Expert Systems With Applications | 基于级联双向胶囊网络的鲁棒三元组知识抽取



欢迎选修浙江大学《知识图谱》开放共享慕课


   

浙江大学知识图谱创新研究团队

浏览 80
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报