关于知识图谱上下级概念建设的一点想法
对知识图谱有所了解的人,都知道知识图谱是对知识的整理,以点和边的形式呈现,属于人工智能中的“符号主义”流派。虽然知识图谱可以清晰地告诉我们各个知识点之间的关联和区别,但我们还是无从知晓图谱中哪些节点相似性高,因此建立知识图谱并不是终极目标,还有许多后续工作需要开展。其中,对知识图谱进行同义关系建设和上下级关系建设也是比较重要的工作。
同义关系,即同义词,也就是对知识图谱中的节点建立同义关系,这些同义关系的节点实际上就是同一个事物。本文将会介绍笔者对知识图谱上下级概念建设的一点想法。
什么是上下级概念建设
在日常生活中,我们提到“苹果”,往往会认为它是一种水果,而水果属于植物;提到《霸王别姬》,往往会认为它是一部电影,而电影又属于文艺作品。其实,这就是一种上下级关系,从知识图谱角度来说,苹果
和《霸王别姬》
都是知识,它们分别属于某个概念:水果
和电影
,而这些概念又分别从属于更高级、更抽象的概念:植物
和文艺作品
,这就是上下级概念
。
值得注意的是,知识图谱的上下级概念建设并不是对知识点打标签,而是对知识点做梳理、归纳、总结,它应该是细粒度的层级建设。可以想见,一个设计良好、层级丰富、层次分明的上下级概念体系,能够帮助我们更好地理解知识图谱中的知识点。
为什么要做上下级概念建设
那么,为什么要做上下级概念建设呢?个人觉得主要是两方面的原因,一方面是对知识点做归纳整理,另一方面是对知识点有更好的理解。
知识图谱的概念从语义网络
发展而来,自然也有与语义网络相似的地方。在语义网络中,我们的基本单元是词汇
(word),而词汇之间会存在同位词
(或者同义词)和上下位词
。这样的体系已经有相关的例子,比如英文的WordNet以及中文的哈工大大词林。类似地,知识图谱的知识点也需要对知识点进行归纳、整理、总结,将它们都纳入到一个统一的同义关系和上下级层级体系中,做到设计良好、层级丰富、层次分明,这是对知识图谱的更细颗粒度的概念建设,能帮助我们对图谱有更好的理解。
此外,做好上下级概念建设,也可以帮助我们更好地理解图谱中的知识点。一方面,是对知识点本身更好的理解。参考上图中的东方明珠,如果我们按上述的上下级概念层级去理解该节点,则东方明珠既是电视塔(建筑物),又是公司(机构),那么东方明珠应该同时具备电视塔和公司这两种概念的基本特性。
另一方面,它也可以帮助我们更好地理解文本中的实体,对NLP任务有更好的提升。比如以下文本:
今年7月,市场研究公司Canalys Research发布了第二季度全球智能手机市场占有率排名,小米手机销量超越了苹果,首次晋升全球第二位;三星排名依然是第一位;OPPO和vivo分别为第四位、第五位,市场占比都是10%。而小米的全球智能手机市场占有率达到17%,同比增长83%。
文本中共出现了多个实体:小米、苹果、三星、OPPO、vivo,其中苹果既可能是手机品牌,也可能是水果,但借助下面的上下级概念图谱,我们就不难理解该文本中的苹果
应当指的是手机
,而不是水果
。
上下级概念建设的价值
做好上下级概念建设,对搜索、推荐、知识补充等也有很大价值。
在搜索场景
中,如果用户搜索“杭州植物园”,那么可以通过知识图谱中的上下级概念层级知道其上级概念为“动植物园”,可理解用户是在搜索动植物园。这可以帮助系统更好地理解用户意图,与打标签有类似的作用,可进一步帮助改进搜索效果,提升用户搜索体验。
在推荐场景
中,可通过知识图谱中的上级概念推荐相似实体,比如用户在搜索了“复旦大学”、“上海交通大学”、“上海理工大学”,借助这三个实体的上级概念“大学”及定位信息为上海,可以推荐上海的大学,比如同济大学等同一层级实体。这可以帮助系统更好地去推荐产品或服务,同时对推荐结果有一定的可解释性。
在知识补充场景
中,可借助上下级概念及同层级其它知识点,发现某些节点所缺失的属性或关系,通过外部数据或其他手段进行补充。
总结
本文是对笔者在实际工作(知识图谱的上下级概念建设)的一点思考,现在网络上关于这块的文章比较少,大多都是零星的想法,希望能对上下级概念建设方面的资料有所补充,能抛砖引玉吸引更多人对此的讨论~
现阶段关于知识图谱上下级概念建设的文章和研究工作不是很多,但也有不少学者、机构、公司对此作出了辛勤劳动和创新想法,文章最后将这些参考文献列在下方,希望后续这方面的文章和研究工作会越来越多~
参考文献
哈工大大词林:http://101.200.120.155/
常识性概念图谱建设以及在美团场景中的应用:https://tech.meituan.com/2021/06/24/nature-language-process-nlp-knowledge-graph.html
通用概念知识图谱介绍:https://www.cnblogs.com/haodingkui/p/11353807.html
中文通用概念知识图谱(CN-Probase):http://www.openkg.cn/dataset/95c9040c-f3e1-417a-860a-c419cb80d1a7