【关于 Complex KBQA】 那些你不知道的事 (中)

DayNightStudy

共 2282字,需浏览 5分钟

 ·

2021-09-16 10:08

作者:杨夕

项目地址:https://github.com/km1994/nlp_paper_study

面经地址:https://github.com/km1994/NLP-Interview-Notes

论文:A Survey on Complex Knowledge Base Question Answering:Methods, Challenges and Solutions

会议:IJCAI'2021

论文地址:https://www.ijcai.org/proceedings/2021/0611.pdf

扩展长论文地址:https://arxiv.org%2Fpdf%2F2108.06688.pdf#=&zoom=130

个人介绍:大佬们好,我叫杨夕,该项目主要是本人在研读顶会论文和复现经典论文过程中,所见、所思、所想、所闻,可能存在一些理解错误,希望大佬们多多指正。

四、知识图谱问答系统思路

  • s1:实体连接 (entity linking),识别问题q的主题实体eq,其目的是将问题链接到知识库中的相关实体。在这一步中,进行命名实体识别、消歧和链接。通常使用一些现成的实体链接工具来完成,例如 S-MART [24]、DBpediaSpotlight [25] 和 AIDA [26];

  • s2:利用答案预测模块来预测答案 ̃Aq。可以采用以下两种方法进行预测:

    • 基于语义解析 (SP-based) 方法:将问题解析为逻辑形式,并针对知识库执行它以找到答案;

    • 基于信息检索 (IR-based) 方法:检索特定于问题的图并应用一些排名算法从顶部位置选择实体。

  • s3:最后,将 KBQA 预测得到的预测答案 ̃Aq 作为系统输出返回给用户;

五、预测答案两类主流的方法

5.1 基于语义解析(SP-based)的方法

5.1.1 基于语义解析(SP-based)的方法整体结构

5.1.2 自然语言理解 (NLU) 模块
  • 介绍:从 自然语言的问题 中抽取出 意图和实体。

可以使用 神经网络(如:LSTM、GRU、CNN、Transformer等方法对问题进行解析,识别 问题中 意图和实体。

5.1.3 逻辑解析 (logical parsing) 模块
  • 介绍:将 NLU 结果转化成解析式

5.1.4 知识图谱实例化 (KB grounding) 模块
  • 介绍:生成的解析式 转化为 可被 指定图数据库识别的查询语句

通常情况下,Iq 包含了主题实体 eq。在有些工作中,(2)和(3)可以同步进行。

5.1.5 知识执行 (KB execution) 模块
  • 介绍:利用 查询语句 查询 指定图数据库,返回问题答案

5.2 基于信息检索(IR-based)的方法

5.2.1 基于信息检索(IR-based)的方法整体结构

5.2.3 子图构建 (retrieval source construction) 模块
  • 介绍:从问题中的实体 eq 出发,从知识图谱中 抽取出和 查询问题相关的子图。

抽取的子图大小会随着抽取信息距离主题实体的距离增大呈指数增加。已有方法如 GraftNet 等通过 Personalized pagerank 保留重要实体控制子图大小。

5.2.3 问题表达 (question representation) 模块
  • 介绍:对 自然语言的问题 q 进行 encoding,得到该问题 q 的 向量 ,再结合其他方法生成指令。

这里,{i^(k), k=1,...,n 是第 k 步推理得到的向量,该向量蕴含了问题在该步的指令。

5.2.4 基于图结构的推理 (graph based reasoning) 模块
  • 介绍:将在指令的指导下在抽取的子图中做传送和增强。推理过程将会产生推理状态向量 {i^(k), k=1,...,n。该向量在具体方法中定义有所不同,如:预测实体的分布,关系的表达等。

一些最新的工作重复(2)和(3)来实现显性的多步推理。

5.2.5 答案排序 (answer ranking) 模块
  • 介绍:将第 n 步推理状态向量用于最终的答案预测,排序高的实体被作为预测实体。

已有的工作通常会通过超参数阈值来选取预测答案实体。

基于信息检索的方法训练目标是让正确的答案实体排序高于其他实体。

5.3 基于语义解析(SP-based)的方法 vs 基于信息检索(IR-based)的方法

  • 基于语义解析(SP-based)的方法

    • 优点:可以通过生成表达逻辑形式来产生更可解释的推理过程;

    • 缺点:严重依赖于逻辑形式和解析算法的设计,这成为性能提升的瓶颈;

  • 基于信息检索(IR-based)的方法

    • 优点:对图结构进行复杂的推理并执行语义匹配。这种范式自然适合流行的端到端 训练,并使基于语义解析(SP-based)的方法 更易于训练;

    • 缺点:推理模型的黑盒风格使得中间推理的可解释性较差。

参考

  1. A Survey on Complex Knowledge Base Question Answering:Methods, Challenges and Solutions

  2. 複雜知識庫問答:方法、挑戰與解決方案綜述

  3. 可能是目前最全面的知识库复杂问答综述解读

  4. [读综述] 关于知识图谱问答的神经网络方法的介绍

  5. KBQA知识库问答论文分享



浏览 100
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报