常识性概念图谱建设以及在美团场景中的应用
数据派THU
共 13287字,需浏览 27分钟
·
2021-07-03 12:50
来源:美团技术团队 本文约9600字,建议阅读15分钟
本文介绍了美团常识性概念图谱构建的Schema,图谱建设中遇到的挑战以及建设过程中的算法实践,最后介绍了一些目前常识性概念图谱在业务上的应用。
常识性概念图谱,是围绕常识性概念建立的实体以及实体之间的关系,同时侧重美团的场景构建的一类知识图谱。本文介绍了美团常识性概念图谱构建的Schema,图谱建设中遇到的挑战以及建设过程中的算法实践,最后介绍了一些目前常识性概念图谱在业务上的应用。
一、引言
二、常识性概念图谱介绍
2.1 图谱三类节点
2.2 图谱四类关系
三、常识性概念图谱构建
3.1 概念挖掘
3.2 概念上下位关系挖掘
3.3 概念属性关系挖掘
3.4 概念承接关系挖掘
3.5 POI/SPU-概念关系建设
四、应用实践
4.1 到综品类词图谱建设
4.2 点评搜索引导
4.3 到综医美内容打标
二、常识性概念图谱介绍
是什么,概念是什么,建立核心概念是什么的关联体系。例如“维修洗衣机”,“维修”是什么,“洗衣机”是什么。 什么样,核心概念某一方面的属性,对核心概念某一方面的细化。“带露台的餐厅”、“亲子游乐园”、“水果千层蛋糕”中“带露台”、“亲子”、“水果千层”这些都是核心概念某一个方面的属性,所以需要建立核心概念对应属性以及属性值之间的关联。 给什么,解决搜索概念和承接概念之间的Gap,例如“阅读”、“逛街”、“遛娃”等没有明确对应的供给概念,所以建立搜索和供给概念之间的关联网络,解决这一类问题。
2.1 图谱三类节点
2.2 图谱四类关系
三、常识性概念图谱构建
3.1 概念挖掘
3.1.1 原子概念挖掘
流行性,一个概念应是某个或某些语料内流行度较高的词,该特性主要通过频率类特征度量,如“桌本杀”这个词搜索量很低且UGC语料中频率也很低,不满足流行性要求。 有意义,一个概念应是一个有意义的词,该特性主要通过语义特征度量,如“阿猫”、“阿狗”通常只表一个单纯的名称而无其他实际含义。 完整性,一个概念应是一个完整的词,该特性主要通过独立检索占比(该词作为Query的搜索量/包含该词的Query的总搜索量)衡量,如“儿童设”是一个错误的分词候选,在UGC中频率较高,但独立检索占比低。
3.1.2 复合概念挖掘
Wide&Deep模型结构:将离散特征与深度模型结合起来判断复合概念是否合理。 Graph Embedding特征:引入词组搭配间的关联信息,如“食品”可以与“人群”、“烹饪方式”、“品质”等进行搭配。
3.2 概念上下位关系挖掘
3.2.1 概念-Taxonomy间上下位关系
3.2.2 概念-概念间上下位关系
候选关系描述抽取:两个概念从属于相同的Taxonomy类型是一个候选概念对是上下位关系对的必要条件,如“二胡”和“乐器”都属于Taxonomy体系中定义的“物品”,根据概念-Taxonomy上下位关系的结果,对于待挖掘上下位关系的概念,找到跟它Taxonomy类型一致的候选概念组成候选关系对,然后在文本中根据候选关系对的共现筛选出用作上下位关系分类的候选关系描述句。 上下位关系分类:在获取到候选关系描述句后,需要结合上下文对上下位关系是否合理进行判断,这里将两个概念在文中的起始位置和终止位置用特殊标记标记出来,并以两个概念在文中起始位置标记处的向量拼接起来作为两者关系的表示,根据这个表示对上下位关系进行分类,向量表示使用BERT输出的结果,详细的模型结构如下图所示:
3.3 概念属性关系挖掘
3.3.1 基于复合概念挖掘公共属性关系
3.3.2 基于开放属性词挖掘特定属性关系
开放属性词和属性值的挖掘
概念-属性的挖掘
根据概念和属性在UGC中的共现特征,利用TFIDF变种算法挖掘概念对应的典型属性作为候选。 将候选概念属性构造为简单的自然表述句,利用通顺度语言模型判断句子的通顺度,保留通顺度高的概念属性。
概念-属性-属性值的挖掘
种子挖掘。基于共现特征和语言模型从UGC中挖掘种子三元组。 模板挖掘。利用种子三元组从UGC中构建合适的模板(例如,“水温是否合适,是选择游泳馆的重要标准。”)。 关系生成。利用种子三元组填充模板,训练掩码语言模型用于关系生成。
3.4 概念承接关系挖掘
3.4.1 基于共现特征挖掘种子数据
3.4.2 基于种子数据训练深度模型
3.4.3 基于已有的图谱结构进行关系补全
3.5 POI/SPU-概念关系建设
同义词聚类。对于待打标的概念,根据图谱同义词数据,获取概念的多种表述。 候选子句生成。根据同义词聚类的结果,从商户名称、团单名称、用户评论等多个来源中召回候选子句。 判别模型。利用概念-文本关联判别模型(如下图所示)判断概念和子句是否匹配。
打标结果。调整阈值,得到最终的判别结果。
四、应用实践
4.1 到综品类词图谱建设
4.2 点评搜索引导
4.3 到综医美内容打标
准确率:通过概念-内容打标算法,相比于关键词匹配,准确率从51%提升到91%。 召回率:通过概念同义挖掘,召回率从77%提升到91%。
五、总结与展望
参考资料
作者简介
评论