用于图神经网络研究的几个实用的数据集

数据派THU

共 1942字,需浏览 4分钟

 ·

2021-09-06 12:55

来源:DeepHub IMBA

本文约1500字,建议阅读5分钟 
本文将为ML/DL图网络的研究提供一些实用的数据集。

随着人工智能的兴起,机器学习(ML)和深度学习(DL)得到了迅速发展,并应用于计算机视觉(CV)、自然语言处理(NLP)、推荐等诸多领域。一些研究已经发展出将ML/DL应用于社交网络、社区分类、脑网络分析等网络任务的方法。在这些任务中,数据由图G(V,E)表示,其中V是节点的集合,E是边的集合:节点表示数据点,边表示节点之间的连接。图数据集上的ML/DL是一项新的研究课题,有许多方面需要研究。因此,拥有有趣和实用的数据集将有助于研究和开发过程。本文将为ML/DL图网络的研究提供一些实用的数据集。

Yelp数据集



yelp是美国版的大众点评,这将是一个有趣的链接预测数据集,可以应用于推荐任务。链路预测任务的目的是学习一个模型,可以预测两个节点之间的链路在未来是否会连接。数据集包括关于用户、业务和点评信息的json文件。它还包含商家的照片。该数据集可用于许多任务,是ML/DL任务的理想实用数据集。

这里下载:
https://www.yelp.com/dataset


亚马逊评论数据集



与 Yelp 数据集类似,亚马逊评论数据集收集有关产品(包括照片、星级评分、元数据、产品描述)、用户(元数据、好友连接、名称、位置……)以及用户对产品的评论的信息。该数据集非常适合链接预测和节点分类任务:与 yelp 类似,链接预测将在电子商务中具有实用的推荐应用;节点分类任务将应用于对销售服务的产品进行评级。从学术角度来看,它可以用于实现许多实验,包括:异构图、关系图以及知识图实验。评论总数为 2.331 亿(从 1996 年 5 月到 2018 年 10 月)。

可以通过 https://nijianmo.github.io/amazon/index.html 访问数据集。


Flickr 数据集



这个数据集是通过在共享Flickr公共图像之间形成链接来构建的。边是通过来自同一位置的图片、提交到同一个图库、组或集合的图片、共享共同标签的图片、朋友拍摄的图片等之间形成的。数据集从许多来源收集,图像由 SIFT 表示 从它们中提取的特征。该数据集包括 105938 张图像和 2316948 个图像之间的链接。该数据集非常适合 CV 任务:图像分类、对象检测和分割。我相信通过图 ML/DL 的聚合过程,它将提高 ML/DL 模型的健壮性和可信度。

可以通过以下连接访问数据集。

https://snap.stanford.edu/data/web-flickr.html

https://lms.comp.nus.edu.sg/wp-content/uploads/2019/research/nuswide/NUS-WIDE.html


假新闻/健康数据集



随着社交媒体的兴起,新闻传播得更快、更有效。但是,大多数新闻质量低且不可信。目前已经进行了许多研究来解决假新闻检测的问题。大多数工作都是通过 NLP 模型来解决这个问题的。但是我们也可以通过图 ML/DL 来解决这个问题,因为原始新闻和共享新闻有很多共同点,它们的联系可以用来解决问题。解决问题的拓扑可能是一种新颖的观点和方法,可以提高性能和鲁棒性。数据由 FakeNewsTracker 检索,从 Twitter 和许多其他社交媒体页面中提取新闻。该数据集非常适合图 ML/DL 中的许多任务:节点分类、链接预测和图分类。

数据集地址如下:
https://github.com/KaiDMML/FakeNewsNet
https://zenodo.org/record/3841644#.YSGPRC1h1GM


SNAP数据集



斯坦福网络分析平台(SNAP)是一个通用的网络分析和图挖掘库。它是用c++编写的,很容易扩展到具有数亿个节点和数十亿条边的大规模网络。它有效地操作大型图,计算结构属性,生成规则和随机图,并支持节点和边上的属性。

这个项目有很多小/中/大的图形数据集。然而,它们中的大多数对于实际应用程序是不实用的。但是,这些数据集可以应用到理论研究中,从而提高应用效率。


地址如下:
https://snap.stanford.edu/


总结


在本文中,我介绍了一些用于ML/DL实验的有趣且实用的数据集。希望这篇文章能对你的研究有所帮助。感谢阅读这篇文章。

编辑:文婧

校对:林亦霖


浏览 11
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报