【关于 Complex KBQA】那些你不知道的事 (中)-技术圈

作者：杨夕
项目地址：https://github.com/km1994/nlp_paper_study
面经地址：https://github.com/km1994/NLP-Interview-Notes
论文：A Survey on Complex Knowledge Base Question Answering:Methods, Challenges and Solutions
会议：IJCAI'2021
论文地址：https://www.ijcai.org/proceedings/2021/0611.pdf
扩展长论文地址：https://arxiv.org%2Fpdf%2F2108.06688.pdf#=&zoom=130
个人介绍：大佬们好，我叫杨夕，该项目主要是本人在研读顶会论文和复现经典论文过程中，所见、所思、所想、所闻，可能存在一些理解错误，希望大佬们多多指正。

四、知识图谱问答系统思路

s1：实体连接 (entity linking)，识别问题q的主题实体eq，其目的是将问题链接到知识库中的相关实体。在这一步中，进行命名实体识别、消歧和链接。通常使用一些现成的实体链接工具来完成，例如 S-MART [24]、DBpediaSpotlight [25] 和 AIDA [26];
s2：利用答案预测模块来预测答案 ̃Aq。可以采用以下两种方法进行预测:

基于语义解析 (SP-based) 方法：将问题解析为逻辑形式，并针对知识库执行它以找到答案;
基于信息检索 (IR-based) 方法：检索特定于问题的图并应用一些排名算法从顶部位置选择实体。

s3：最后，将 KBQA 预测得到的预测答案 ̃Aq 作为系统输出返回给用户；

五、预测答案两类主流的方法

5.1 基于语义解析（SP-based）的方法

5.1.1 基于语义解析（SP-based）的方法整体结构

5.1.2 自然语言理解 (NLU) 模块

介绍：从自然语言的问题中抽取出意图和实体。

可以使用神经网络（如：LSTM、GRU、CNN、Transformer等方法对问题进行解析，识别问题中意图和实体。

5.1.3 逻辑解析 (logical parsing) 模块

介绍：将 NLU 结果转化成解析式

5.1.4 知识图谱实例化 (KB grounding) 模块

介绍：生成的解析式转化为可被指定图数据库识别的查询语句

通常情况下，Iq 包含了主题实体 eq。在有些工作中，（2）和（3）可以同步进行。

5.1.5 知识执行 (KB execution) 模块

介绍：利用查询语句查询指定图数据库，返回问题答案

5.2 基于信息检索（IR-based）的方法

5.2.1 基于信息检索（IR-based）的方法整体结构

5.2.3 子图构建 (retrieval source construction) 模块

介绍：从问题中的实体 eq 出发，从知识图谱中抽取出和查询问题相关的子图。

抽取的子图大小会随着抽取信息距离主题实体的距离增大呈指数增加。已有方法如 GraftNet 等通过 Personalized pagerank 保留重要实体控制子图大小。

5.2.3 问题表达 (question representation) 模块

介绍：对自然语言的问题 q 进行 encoding，得到该问题 q 的向量，再结合其他方法生成指令。

这里，{i^(k), k=1,...,n 是第 k 步推理得到的向量，该向量蕴含了问题在该步的指令。

5.2.4 基于图结构的推理 (graph based reasoning) 模块

介绍：将在指令的指导下在抽取的子图中做传送和增强。推理过程将会产生推理状态向量 {i^(k), k=1,...,n。该向量在具体方法中定义有所不同，如：预测实体的分布，关系的表达等。

一些最新的工作重复（2）和（3）来实现显性的多步推理。

5.2.5 答案排序 (answer ranking) 模块

介绍：将第 n 步推理状态向量用于最终的答案预测，排序高的实体被作为预测实体。

已有的工作通常会通过超参数阈值来选取预测答案实体。

基于信息检索的方法训练目标是让正确的答案实体排序高于其他实体。

5.3 基于语义解析（SP-based）的方法 vs 基于信息检索（IR-based）的方法

基于语义解析（SP-based）的方法

优点：可以通过生成表达逻辑形式来产生更可解释的推理过程；
缺点：严重依赖于逻辑形式和解析算法的设计，这成为性能提升的瓶颈；

基于信息检索（IR-based）的方法

优点：对图结构进行复杂的推理并执行语义匹配。这种范式自然适合流行的端到端训练，并使基于语义解析（SP-based）的方法更易于训练；
缺点：推理模型的黑盒风格使得中间推理的可解释性较差。

参考

A Survey on Complex Knowledge Base Question Answering:Methods, Challenges and Solutions
複雜知識庫問答：方法、挑戰與解決方案綜述
可能是目前最全面的知识库复杂问答综述解读
[读综述] 关于知识图谱问答的神经网络方法的介绍
KBQA知识库问答论文分享

【关于 Complex KBQA】 那些你不知道的事 (中)

四、知识图谱问答系统思路

五、预测答案两类主流的方法

5.1 基于语义解析（SP-based）的方法

5.1.1 基于语义解析（SP-based）的方法整体结构

5.1.2 自然语言理解 (NLU) 模块

5.1.3 逻辑解析 (logical parsing) 模块

5.1.4 知识图谱实例化 (KB grounding) 模块

5.1.5 知识执行 (KB execution) 模块

5.2 基于信息检索（IR-based）的方法

5.2.1 基于信息检索（IR-based）的方法整体结构

5.2.3 子图构建 (retrieval source construction) 模块

5.2.3 问题表达 (question representation) 模块

5.2.4 基于图结构的推理 (graph based reasoning) 模块

5.2.5 答案排序 (answer ranking) 模块

5.3 基于语义解析（SP-based）的方法 vs 基于信息检索（IR-based）的方法

参考

【关于 Complex KBQA】那些你不知道的事 (中)