上周在文章《微软亚洲研究院高被引论文不完全清单(上篇)》中,我们为大家梳理了历年来微软亚洲研究院在机器学习、计算机视觉、自然语言处理以及信息检索领域的34篇亮点论文。今天的《下篇》给大家带来的是人工智能、网络、数据挖掘、数据管理领域的33篇亮点论文。其中包括:协同过滤、图聚类问题、主题信息、跨模态预训练模型、分布式图计算引擎、隐私保护、采样算法、差分数据结构、深度强化学习框架、知识图、矩阵分解、时序预测...... 本文的梳理同样是基于 Paper Digest 网站所整理列出的“最具影响力论文”,由于网站收录的大会有限,并不能涵盖微软亚洲研究院的所有研究领域,论文引用量也不能完全代表其影响力,但我们希望这份清单可以让大家更好地了解一些热门领域的研究动向,并给大家的学术研究带来一些启发。 以“论文的一句话摘要”为特色的 Paper Digest 网站,按照不同的研究方向对计算机领域的一些热门顶会进行了分类,并且根据论文的引用量,在部分顶会的“最具影响力论文”板块中对收录的论文进行了影响力排名。该排名实时变动,且每一届顶会只评选引用量靠前的10-15篇论文。 人工智能领域顶会:IJCAI、AAAI IJCAI 2018:Reinforced Mnemonic Reader For Machine Reading Comprehensionhttps://arxiv.org/abs/1705.02798论文亮点:文章提出了一种基于记忆的答案抽取网络,可以持续增加阅读知识的同时,不断提取答案片段。 AAAI 2010:Collaborative Filtering Meets Mobile Recommendation: A User-Centered Approachhttps://www.aaai.org/ocs/index.php/AAAI/AAAI10/paper/viewPaper/1615论文亮点:微软亚洲研究院提出了一种以用户为中心的协同地点和活动过滤模型,将多个用户的数据集中在一起,并应用协同过滤来发现不同地点的相似用户及活动。 AAAI 2013:Multi-Armed Bandit With Budget Constraint And Variable Costshttps://www.aaai.org/ocs/index.php/AAAI/AAAI13/paper/viewPaper/6381论文亮点:在很多 Bandit 的实际应用中我们都需要考虑到预算和成本,针对这类问题,微软亚洲研究院提出了两种新的 UCB 的算法。AAAI 2014:Sequential Click Prediction For Sponsored Search With Recurrent Neural Networkshttps://www.aaai.org/ocs/index.php/AAAI/AAAI14/paper/viewPaper/8529论文亮点:论文提出了用 RNN 模型来预估 CTR(点击通过率),与传统的 CTR 预估方式相比,RNN 可直接对用户的行为序列进行建模。AAAI 2014:Learning Deep Representations For Graph Clusteringhttps://www.aaai.org/ocs/index.php/AAAI/AAAI14/paper/viewPaper/8527论文亮点:这篇论文的工作最早将深度学习应用于图聚类问题(graph clustering)。论文的思路是先将自编码器(autoencoder)应用到图结构中进行特征提取,然后再使用 k-means 聚类。 AAAI 2017:Topic Aware Neural Response Generationhttps://aaai.org/ocs/index.php/AAAI/AAAI17/paper/viewPaper/14563论文亮点:文章提出了一种主题感知序列到序列(TA-Seq2Seq)模型,利用主题信息作为先验知识进行对话生成,具体来说是使用一个联合的注意力机制以及一个偏差纠正的生成概率来利用主题信息。 AAAI 2019:Neural Speech Synthesis With Transformer Networkhttps://ojs.aaai.org//index.php/AAAI/article/view/4642论文亮点:受 Transformer 网络在神经机器翻译(NMT)中的成功启发,文章结合了 Transformer 和 Tacotron 各自的优点,提出了 Transformer-TTS。采用自注意力机制:1. 替代 RNN 建模,提高并行性;2. 替代 Tacotron 的注意力,multi-head 多方面建模。 AAAI 2020:Unicoder-VL: A Universal Encoder for Vision and Language by Cross-Modal Pre-Traininghttps://ojs.aaai.org//index.php/AAAI/article/view/6795论文亮点:文章提出了跨模态预训练模型 Unicoder-VL。借助通用领域的跨模态预训练,该模型能够学习到语言和视觉间的内在关联,并用于生成语言和视觉的联合向量表示。 网络领域顶会:SIGCOMM、WWW、MOBICOM SIGCOMM 2004:Shield: Vulnerability-driven Network Filters For Preventing Known Vulnerability Exploitshttps://dl.acm.org/doi/abs/10.1145/1015467.1015489论文亮点:文章提出了 Shield,首次提出一种通过在传输层上安装特定的 Net Filters 来实现可快速部署的蠕虫和漏洞防护框架。 SIGCOMM 2008:Dcell: A Scalable And Fault-tolerant Network Structure For Data Centershttps://dl.acm.org/doi/abs/10.1145/1402958.1402968论文亮点:微软亚洲研究院提出了一种新的网络互联结构 DCell,它不仅具有数据中心组网所需的主要特性,并且可以比传统树结构的网络互联结构有着更好的传输性能和容错性。 SIGCOMM 2009:BCube: A High Performance, Server-centric Network Architecture For Modular Data Centershttps://dl.acm.org/doi/10.1145/1592568.1592577论文亮点:面对基于集装箱(shipping-container based)的模块化数据中心,文章设计了一种新型网络体系结构 BCube。BCube 首次将数据中的服务器也作为网络架构的关键节点,而不仅仅是终端。这样,整个模块化数据中心的容错性和可靠性都得到了更好的保障。 SIGCOMM 2015:Pingmesh: A Large-Scale System For Data Center Network Latency Measurement And Analysishttps://dl.acm.org/doi/abs/10.1145/2785956.2787496论文亮点:文章提出了用于数据中心网络延迟测量和分析的大规模系统 Pingmesh。 WWW 2008:Learning Transportation Mode From Raw Gps Data For Geographic Applications On The Webhttps://dl.acm.org/doi/abs/10.1145/1367497.1367532论文亮点:微软亚洲研究院提出了一种基于监督学习的方法,从原始 GPS 数据中自动推断交通方式。 WWW 2009:Mining Interesting Locations And Travel Sequences From GPS Trajectorieshttps://dl.acm.org/doi/abs/10.1145/1526709.1526816论文亮点:基于大量用户的 GPS 轨迹,论文在给定的地理区域中挖掘出了有趣的地点和经典的旅行路线。 WWW 2010:Collaborative Location And Activity Recommendations With GPS History Datahttps://dl.acm.org/doi/abs/10.1145/1772690.1772795论文亮点:微软亚洲研究院通过 GPS 位置数据和用户在不同地点的评论数据,给相关用户推荐有趣的地点和活动。 WWW 2015:LightLDA: Big Topic Models On Modest Computer Clustershttps://dl.acm.org/doi/abs/10.1145/2736277.2741115论文亮点:本文贡献在三个模型:1.高效的O(1)Metropolis-Hastings 采样算法,其运行成本与模型大小无关;2.一种模型调度方案以处理大模型带来的成本挑战;3.一种用于模型存储的差分数据结构。 WWW 2018:DRN: A Deep Reinforcement Learning Framework for News Recommendationhttps://dl.acm.org/doi/abs/10.1145/3178876.3185994论文亮点:微软亚洲研究院提出了一种面向新闻推荐的深度强化学习框架 DRN。该框架使用了 DQN 网络,对短期回报和长期回报进行了有效地模拟。 WWW 2018:DKN: Deep Knowledge-Aware Network for News Recommendationhttps://dl.acm.org/doi/abs/10.1145/3178876.3186175论文亮点:文章提出了一种深度知识感知网络(DKN),将知识图表示融入到新闻推荐中。 WWW 2019:Multi-Task Feature Learning for Knowledge Graph Enhanced Recommendationhttps://dl.acm.org/doi/10.1145/3308558.3313411论文亮点:在该论文中,作者将推荐系统和知识图谱建模视为两个分离但相关的任务,设计了一个多任务学习的框架,利用知识图谱建模任务来辅助推荐系统任务。 WWW 2019:Knowledge Graph Convolutional Networks For Recommender Systemshttps://dl.acm.org/doi/10.1145/3308558.3313417论文亮点:微软亚洲研究院提出了一种用于推荐系统的知识图卷积网络(KGCN)它可以通过在知识图谱上挖掘物品的属性来有效地捕捉物品间的相关性。 MOBICOM 2018:DeepCache: Principled Cache For Mobile Deep Visionhttps://arxiv.org/abs/1712.01670论文亮点:文章提出了一种新的为移动视频上做深度推理的 Cache 设计。DeepCache 利用视频时间上的 Locality 这一内部秉性,极大地提高了推理运算的效率。 数据挖掘领域顶会:KDD KDD 2011:Discovering Spatio-temporal Causal Interactions In Traffic Data Streamshttps://dl.acm.org/doi/abs/10.1145/2020408.2020571论文亮点:本文提出了一种在交通数据中发现异常及因果关系的算法。 KDD 2011:Driving with knowledge from the physical worldhttps://dl.acm.org/doi/abs/10.1145/2020408.2020462论文亮点:基于从出租车轨迹数据中挖掘出的交通模式和驾驶员行为模式,本文设计了一种为用户提供定制化导航路线的服务。 KDD 2012:Discovering Regions Of Different Functions In A City Using Human Mobility And POIshttps://dl.acm.org/doi/abs/10.1145/2339530.2339561论文亮点:本文提出了一种基于主题模型,利用区域间人群移动和区域内兴趣点分布来挖掘城市不同功能区域的方法。 KDD 2014:Inferring Gas Consumption And Pollution Emission Of Vehicles Throughout A Cityhttps://dl.acm.org/doi/abs/10.1145/2623330.2623653论文亮点:文章基于出租车轨迹数据,提出了一种预测车辆能耗和尾气排放情况的方法。 KDD 2014:GeoMF: Joint Geographical Modeling And Matrix Factorization For Point-of-interest Recommendationhttps://dl.acm.org/doi/abs/10.1145/2623330.2623638论文亮点:本文提出了 GeoMF,一种结合地理模型和加权矩阵分解的地点推荐算法。 KDD 2015:Forecasting Fine-Grained Air Quality Based on Big Datahttps://dl.acm.org/doi/abs/10.1145/2783258.2788573论文亮点:文章提出了一个多视图混合模型,用于细粒度空气质量预测。 KDD 2016:Collaborative Knowledge Base Embedding For Recommender Systemshttps://dl.acm.org/doi/abs/10.1145/2939672.2939673论文亮点:微软亚洲研究院提出了一种利用知识图谱中的语义网络、文字描述以及图片等信息来提高推荐质量的模型。研究员使用异构网络嵌入以及深度学习等技术来提取数据中的语义信息,并与协同过滤算法进行了深度融合。 KDD 2018:xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systemshttps://dl.acm.org/doi/10.1145/3219819.3220023论文亮点:文字提出了一种极深因子分解机模型(xDeepFM),不仅能同时以显式和隐式的方式自动学习高阶的特征交互,使特征交互发生在向量级,还兼具了记忆与泛化的学习能力。 KDD 2020:LayoutLM: Pre-training Of Text And Layout For Document Image Understandinghttps://dl.acm.org/doi/abs/10.1145/3394486.3403172论文亮点:微软亚洲研究院提出了 LayoutLM 模型来对文档中的文本和布局信息进行联合建模。该模型对大量实际文档图像理解任务很有帮助,例如从扫描文档中提取信息。此外,文章还利用了图像特征来整合单词的视觉信息到 LayoutLM 中去。 数据管理领域顶会:SIGMOD SIGMOD 2010:Searching Trajectories By Locations: An Efficiency Studyhttps://dl.acm.org/doi/abs/10.1145/1807167.1807197论文亮点:在本文中,研究员研究了一类新的轨迹查询问题,即在一个时空数据库中通过指定或不指定顺序的一个地点集合来搜索最佳连接轨迹的问题。 SIGMOD 2013:Trinity: A Distributed Graph Engine On A Memory Cloudhttps://dl.acm.org/doi/abs/10.1145/2463676.2467799论文亮点:微软亚洲研究院设计开发了 Trinity 分布式图计算引擎(Microsoft Graph Engine)。Trinity 支持对百亿节点的超大规模图数据进行毫秒级的实时查询。 SIGMOD 2016:PrivTree: A Differentially Private Algorithm For Hierarchical Decompositionshttps://dl.acm.org/doi/abs/10.1145/2882903.2882928论文亮点:文章提出了一种名为 PrivTree 的差分隐私算法,可用于保护空间和序列等类型的数据。