6个关键步骤,手把手教你构建图模型

大数据DT

共 4627字,需浏览 10分钟

 ·

2021-01-16 17:57


导读:图模型作为当前流行的信息处理加工技术,自提出以来,迅速在学术界和工业界得到了普及,在智能推荐、决策分析等方面有着广泛的应用。


作者:华为公司数据管理部
来源:大数据DT(ID:hzdashuju)




图模型节点组成。节点表示实体概念,边则由属性关系构成。

  • 实体指的是具有可区别性且独立存在的某种事物,如某一个人、某一个城市、某一种植物、某一种商品等,是图模型中的最基本元素;
  • 概念是对特征的组合而形成的知识单元,主要指集合、类别、对象类型、事物的种类,例如人物、地理等;
  • 属性主要指描述实体或概念的特征或特性,例如人员的国籍、生日等。

我们以“哲学家”为例设计图模型,如图5-13所示。

▲图5-13 图模型示例

图模型构建包含几个关键步骤,如图5-14所示。

▲图5-14 企业图模型构建步骤


第一步:业务场景定义

业务场景决定信息涵盖范围,以及信息颗粒度的表示。

以支撑业务连续性为例,因为不可抗力的影响,部分区域的供应商工厂无法正常生产和发货,涉及的信息包括供应商的信息、产能、元器件及内部物料、合同和客户信息,要求能够根据用户输入的当前物料储备和合同状态,获取影响内部物料、产品、合同交付和客户的清单和范围。

这种应用涉及对产品目录和配置的解读,需要对收集的信息进行最小采购器件的抽取。

信息颗粒度在图模型建设中是个不可忽视的问题,根据应用场景决定信息颗粒度以及图模型的精确性与有效性。比如手机,有品牌、型号、批次,直至手机整机。同样的信息范围,颗粒度越细,图模型应用越广泛,关系越丰富,但冗余越多,知识消费越低效。信息颗粒度的原则是“能满足业务应用的最粗颗粒度”。


第二步:信息收集

信息的选取要考虑两个方面的内容。

  1. 与应用场景直接相关的信息。例如,判断不可抗力供应中断影响的范围,直接相关的信息有物料信息、产品配置、合同信息等。
  2. 与应用场景间接相关,但可辅助理解问题的信息。这包括企业信息、专业领域信息、行业信息以及开放域信息。


第三步:图建模

相同的数据可以有若干种模式的定义,良好的模式可以减少数据冗余,提高实体识别的准确率,在建模的过程中,要结合数据特点与应用场景来完成。同样的数据从不同的视角可以得出不同的图模型。


第四步:实体、概念、属性、关系的标注

企业图模型中涉及的实体和概念可分为三类:

  • 公共类,如人名、机构名、地名、公司名、时间等;
  • 企业类,如业务术语、企业部门等;
  • 行业类,如金融行业、通信行业等。


第五步:实体和概念的识别

企业图模型中实体、概念的识别可将业务输入与数据资产中已有的信息作为种子,运用命名实体识别(NER)的方法扩展出新实体概念,经业务确认后,列入实体、概念库。


第六步:属性识别与关系识别

企业图模型中的属性与关系一般是根据业务知识在模式层设计时定义,属性与关系相对稳定,其扩展场景不是很多。

企业图模型的存储技术要综合考虑应用场景、图模型中节点和联接的数量、逻辑的复杂度、属性的复杂度,以及性能要求。一般建议采用混合存储方式,用图数据库存储关系,关系型数据库或键值对存储属性。偏重逻辑推理的应用场景用RDF的存储方式,偏重图计算的应用场景选择属性图的存储方式。发挥两类数据存储和读写的各自优势。

知识计算主要是根据图谱提供的信息得到更多隐含的知识,如通过模式层以及规则推理技术可以获取数据中存在的隐含信息。知识计算涉及三大关键技术:图挖掘计算、基于本体的推理、基于规则的推理。图挖掘计算是基于图论的相关算法,实现对图谱的探索和挖掘。图挖掘计算主要分为如下6类。

  • 图遍历:知识图谱构建完之后可以理解为是一张很大的图,可以去查询和遍历这个图,要根据图的特点和应用场景进行遍历。
  • 图里面经典的算法,如最短路径。
  • 路径的探寻,即根据给定两个实体或多个实体去发现它们之间的关系。
  • 权威节点的分析,这在社交网络分析中使用较多。
  • 族群分析。
  • 相似节点的发现。

图挖掘计算如图5-15所示。

▲图5-15 图模型示例

图挖掘计算在当前的应用场景中,基于业务连续性,通过查询遍历图模型,识别影响节点和影响范围,基于最短路径,辅助决策物流线路,在企业中的应用较为普遍。

图模型在企业中的价值,很大程度上取决于企业基于对象节点可以构建多完善的关系,这个关系的构建是一个逐步完善的过程,基于业务场景不断补充和完善关系,这就是图模型的优势。

当形成一个足够完善的企业级图模型后,领域分段的业务场景应用只需要裁剪部分节点和关系,就可以满足业务的需求,达到快速响应业务需求、降低开发成本的目的。


关于作者:华为公司数据管理部,作为集团层面的数据管理组织,主要负责公司数据工作的战略规划、路标举措以及实施落地;数据从产生到消费全生命周期管理的治理框架、流程规范、方法和IT工具的制定与推行;公司级信息架构的设计和数据资产的治理维护;主持集团层面数据相关项目,推动以数据为核心的数字化转型等工作。

本文摘编自华为数据之道》,经出版方授权发布。

延伸阅读华为数据之道
点击上图了解及购买
转载请联系微信:DoctorData

推荐语:华为官方出品!这是一部从技术、流程、管理等多个维度系统讲解华为数据治理和数字化转型的著作。


划重点👇


干货直达👇



更多精彩👇

在公众号对话框输入以下关键词
查看更多优质内容!

PPT | 读书 | 书单 | 硬核 | 干货 | 讲明白 | 神操作
大数据 | 云计算 | 数据库 | Python | 可视化
AI | 人工智能 | 机器学习 | 深度学习 | NLP
5G | 中台 | 用户画像 1024 | 数学 | 算法 数字孪生

据统计,99%的大咖都完成了这个神操作
👇


浏览 14
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报