KDD 2020首届时间检验应用科学奖公布，清华大学研究团队获奖-技术圈

大数据文摘授权转载自学术头条

作者：小婷

ACM SIGKDD（ACM SIGKDD Conference on Knowledge Discovery and Data Mining，国际数据挖掘与知识发现大会，简称 KDD）是数据挖掘领域国际顶级学术会议,今年的KDD大会将于8月23日至27日在线上召开。

8月13日， SIGKDD 2020官方公布了2020年ACM SIGKDD创新奖、服务奖、论文奖、新星奖、时间检验研究奖、时间检验应用科学奖等六项大奖的获得者，这些奖项是针对数据科学、机器学习、大数据和计算机科学领域的杰出个人和研究团队而设立的。

值得一提的是，今年KDD颁发了首届时间检验应用科学奖（Test of Time Award for Applied Science）奖项，以表彰在数据科学的实际应用中具有影响力的研究。清华大学计算机科学与技术系唐杰、李涓子等人凭借他们在2008年发表的关于学术社交网络挖掘的研究成果获得了这一奖项。

获奖论文题目为ArnetMiner: Extraction And Mining Of Academic Social Networks，论文作者包括清华大学计算机科学与技术系的唐杰、张静、姚利敏、李涓子，以及来自 IBM 中国研究实验室的张莉和苏中。

论文链接：
http://keg.cs.tsinghua.edu.cn/jietang/publications/KDD08-Tang-et-al-ArnetMiner.pdf

在这篇文章中，作者主要介绍了一个自主研发的面向研究者社会网络的挖掘搜索系统ArnetMiner的体系结构和关键技术。下面我们来将详细解读一下这篇文章。

研究背景

近些年，学术社交网络发展迅速，为众多研究学者提供了良好的交流平台，也产生了巨大的学术信息数据集。随着数据挖掘和人工智能技术的发展，针对学术社交网络进行数据挖掘和知识提取，进而为科学研究领域提供全方位的服务成为一大研究热点。

在作者开始这项研究之时，学术圈已有DBLP、CiteSeer、Google Scholar等学术搜索系统发布，但是往往存在以下两项不足之处：

1）缺乏语义信息。无论用户输入的个人资料或使用启发式方法提取的各类信息，语义存在不完整或不一致性，缺少有效获得大规模语义信息的方法；

2）缺乏异构对象的统一建模方法。以前，学术网络中不同类型的信息如学者、论文、会议期刊是单独建模的，因此无法准确捕捉它们之间的依赖关系。

为解决这两个问题，作者所在的研究团队开发了ArnetMiner（https://www.aminer.cn/ ）系统。该系统旨在解决以下几个问题：

1）如何自动从互联网海量信息中提取研究人员的个人档案？

2）如何集成不同来源提取的学术相关信息（例如研究人员的个人档案和出版物）？

3）如何以统一的方法为不同类型的信息建模？

4）如何基于已构建的网络，提供强大的挖掘和搜索服务？

ArnetMiner系统（简称AMiner）

图1：AMiner系统框架图

图 1 给出了AMiner系统框架图，AMiner系统自下而上主要包括五个部分：

1）研究者个人信息抽取（Extraction）：即从网络上自动识别到研究者的个人主页，并训练一个统一的模型，从中抽取研究者的各种基本信息。同时，从不同来源的论文数据库抽取或收集作者所发表的论文信息；

2）个人信息融合（Integration）：通过使用研究者姓名作为标识符，将提取的研究者的个人资料和提取的出版物信息进行整合。提出了马尔科夫随机场概率模型，以解决融合不同来源论文数据时面临的重名歧义问题；

3）存储和访问（Storage and Access）：系统将集成的数据存储在研究者网络知识库（RNKB）中，利用MySQL作为存储数据库，并使用反向文件索引方法进行信息索引；

4）建模（Modeling）：文章提出一个概率生成模型，通过对学术网络中的研究者、论文、会议等不同类型的信息进行综合分析，对每种信息进行主题分布估计；

5）搜索服务（Search Services）：基于建模结果，提供多种搜索服务，包括专家搜索、关联关系搜索、论文推荐以及引用推荐等。

该系统重点解决三个技术难点：

1）学术网络中研究者个人信息自动抽取问题；

2）不同来源学术论文融合过程中的重名排歧问题；

3）学术网络中研究者、论文、会议等异质实体的统一建模问题。

个人自动信息抽取

作者首先通过扩展“朋友之友（FOAF）”来定义研究者档案，包含研究者的基本信息（如研究者的名字、照片、职位、工作单位等），研究者的联系信息（如研究者的电话、传真、通讯地址、Email 等），研究者的教育经历（如毕业学校、获得学位的时间、每个阶段所学专业以及所发表的论文）。

研究者个人信息抽取分三步：相关页面识别、预处理和信息提取。

在相关的页面识别中，对于每个研究者，通过Google搜索引擎的API获得网页列表，并判断是否是研究者的主页或者包含了较多的研究者个人信息的介绍性网页。然后，使用支持向量机（SVM）作为分类模型对网页内容进行分类处理。

在预处理中，将文本进行标记处理，系统利用条件随机场（CRF）作为标记模型，来确定最可能的对应标记序列，每个标签对应一个定义的属性。

作者使用规则归纳模型算法和SVM模型方法作为概要文件提取的基准，通过研究每种特征类型在研究者档案提取中的作用，发现仅使用一种类型的功能无法获得准确的性能分析结果。

图2 ：研究者个人主页和理想的标注结果

图2中的左侧给出了一个典型的研究者个人主页，其中包含研究者的姓名、照片、通信地址、Email地址、教育经历等信息，图的右侧显示了最终想要的理想的标注结果。

分析数据发现，个人信息的各个属性之间有依赖关系，而且有的属性之间有很强的依赖关系。

研究者重名排歧

对于网络上不胜其数的同名作者，如何精确的定位一位作者成为一大难点，同名作者文章的排歧工作面临每篇文章信息量有限和作者相关描述不确定性强的难点。

之前的研究工作中，采用监督学习算法对每个排歧目标的数据进行学习和训练，这种方法可扩展性差；无监督学习方法受到可利用信息量的限制，排歧效果不太强。

针对这些问题，作者在文中提出了一个基于隐马尔可夫随机场（HMRF）的概率框架，该框架可以捕获每篇论文之间的依赖关系，从而更加灵活地将各种知识以约束的形式放到算法中，从而很好地利用各种指导和数据来提高重名排歧的精度。

具体而言，利用隐马尔可夫随机场理论构造目标函数，将整个问题转化为最小化目标函数问题。目标函数主要包含两个部分：

一是聚类的每个类别中数据点之间的距离，用来衡量每个聚类结果的紧密程度；
二是当前聚类结果所违背的所有约束的惩罚值之和。

整个算法的目标是找到内部紧密而且尽量少违背约束的聚类结果，来作为同名排歧的结果。作者在文中通过大量的实验数据，证明这一方法在消除重名方面明显优于传统方法。

图3 ：一个重名排岐的实例

图3给出了一个重名排岐的实例。图中每个点表示一篇论文，每条有向边表示两篇论文之间的不同类型的关系，这些关系即可以转化为上述约束。两个点之间的距离反应了它们在内容上相似度。实线框表示论文属于同一个作者（聚类类别）。

从图中可以非常直观地看出，仅根据内容相似度不能取得很好的聚类效果，但是不同类型的关系对于区分不同的作者非常有效。例如，根据节点3和8之间的合作关系，很容易将它们分配到同一个类别。

异质网络建模

学术网络建模对于任何搜索或建议任务都是至关重要的。传统上，信息通常是基于“词袋（BOW）”模型来表示的。

AMiner 提供的核心服务是专家搜索，即根据用户查询的话题找出在相关领域的权威专家。因此，仅仅依靠关键词进行专家匹配，几乎无法返回有效的结果。而如果我们知道自然语言处理领域的权威会议是“ACL”等，根据研究者发表的会议信息，就可以很容易判断出他是否是该领域的权威专家。

因此，作者提出了一个统一的主题模型ACT，同时对研究者论文、作者和会议的主题进行分布建模，设计了一种可以有效地利用学术网络的异质实体与关联信息，来发现领域内专家方法。

文章提出主题模型ACT对研究者异质信息网络统一进行建模，从中估计出不同类型的实体，包括研究者、会议、关键词以及论文在不同隐含话题上的概率分布。

图4 构建话题模型生成研究者异构信息网络

ACT1模型：每位作者与主题上的多项式分布相关联，并且论文中的每个单词和会议标记都是从抽样的主题中生成的。

ACT2模型：每个“作者-会议”对都与主题上的多项式分布相关联，然后从采样的主题中生成每个单词。

ACT3模型：每位作者都与一个主题分布相关联，并且在为论文中的所有单词标记采样主题之后，生成会议标记。

有了这些概率分布，当用户给定一个查询词，就可以推断与之概率分布相近的专家，进而还可以推断出相关的会议和论文等异构网络中存在的各种实体类型。