【机器学习】干货!分享 9 个获取机器学习数据集的网址!

机器学习初学者

共 2404字,需浏览 5分钟

 ·

2021-03-19 11:35

机器学习通常被视为一种神奇的工具,你可以整理数据,并将获得的数据知识转化为预测。为此,我们也需要花费大量时间在数据收集、清理和合并等方面。

今天我将给大家分享 9 个关于机器学习数据集获取的最佳网址,它们将简化你的工作方式,你可以找到用于所有目的的汇总数据集。从地理数据到犯罪数据,潜在的检查领域等等。

1. Google数据集搜索引擎

与Google的核心产品一样,你可以轻松地使用文本搜索数据集。 此外,你可以按日期,数据格式和使用权限过滤查询。 该网站上的数据集范围从付费的公司数据集到免费用于个人项目的数据集。

如果你正在寻找没有任何特定限制的所有可用数据集,那么google是最好的起点。

地址

https://datasetsearch.research.google.com/

2、Kaggle 数据集

如果你曾经做过任何数据科学相关的课程或黑客马拉松,你可能会遇到 Kaggle。Kaggle 是世界领先的平台,涉及所有数据科学相关的编程。它还允许用户查找和发布数据集,更重要的是与其他数据科学人员就如何从数据集中提取价值进行工作和竞争。

如果你试图了解更多关于特定类型的问题,并希望与世界各地的数据科学家讨论学习,Kaggle是你需要的地方。

地址

https://www.kaggle.com/datasets

3、Earth Data

对于那些希望获得高层次概述的人来说,来自Nasa的Earth Data是正确的地方。它可能包含有关地球,气候和水体的与地理相关的数据集,可能是最大的集合。

数据集由世界各地的研究人员和机构提供并创建,并且肯定是各个领域中质量最高的。 如果你正在寻找一个关注时间序列或地理空间数据的项目,那么这无疑是开始查找的最佳位置。

地址

https://earthdata.nasa.gov/

4、亚马逊和微软数据集

大型科技巨头在其开放数据注册表中拥有来自世界各地的数据集。 我之所以成为共同的地方,是因为它们虽然没有大量的数据集,但是却具有一些特别大的数据集。

向公众公开此类数据集时,他们在云和大数据存储方面的经验肯定会派上用场。 当前,AWS具有约200个数据集,而Azure具有约20个。如果你正在大数据领域中寻找项目并想要处理大量数据,那么这些地方是最好的选择。

地址

https://registry.opendata.aws/
https://azure.microsoft.com/en-us/services/open-datasets/catalog/?q+

5、FBI犯罪数据

如果您想了解那些品德不好的人,FBI犯罪数据可能会给你一个提示。 可能是围绕犯罪和非犯罪执法数据的最大数据收集。它具有从基于国家的犯罪到与人口贩运有关的数据。

虽然这通常是一个令人难过的故事,但它也是最令人兴奋的数据类型之一。 如果你正在寻找一个变化和一个新的,令人兴奋的项目,而这个项目有些不同,那么它肯定是金矿。

地址

https://crime-data-explorer.fr.cloud.gov/downloads-and-docs

6、数据世界

数据世界是一个很少提及的集合。 它与Google数据集搜索引擎非常相似。 但是,我对这种实现感到非常满意的是搜索深度,当输入查询时,它不仅显示数据集本身,而且还显示可能包含所需数据的子文件。 当查找诸如人口统计信息和地理位置集合之类的辅助数据时,这当然特别有用。

如果你正在寻找一个以数据为名的专用网站,强烈建议您使用"数据世界"。

地址

https://data.world/

7、欧洲核子研究组织开放数据门户

位于日内瓦附近的欧洲核研究组织(CERN)已向公众提供了许多令人难以置信的研究数据。

欧洲核子研究组织的开放数据门户令人着迷。 他们收集了2 PB的数据,并提供了有关最小物理量(粒子物理学)的数据。 这是欧洲最负盛名的研究机构之一,任何人都无法满足他们有关粒子碰撞的数据质量。

地址

http://opendata.cern.ch/

8、Lionbridge AI数据集

Lionbridge是一家提供围绕数据收集,注释和验证的服务的公司。 自定义标签环境以及我们今天感兴趣的内容包括你可以在其网站上找到的各种数据集。

在他们的数据集部分,他们向您展示了包含不同来源的几篇文章。 例如“用于机器学习的11种最佳气候变化数据集”和“用于机器学习的50种最佳免费数据集”。由于它们是一家围绕数据集构建的公司,因此他们的建议肯定很棒。

如果要在专业数据集之间进行比较,最好的地方。

地址

https://lionbridge.ai/datasets/

9、UCI机器学习存储库

加州大学尔湾分校拥有550多个数据集,供你免费使用。我发现该网站出于教育目的特别有趣,因为它提供了按问题过滤的功能。 因此,通过分类,回归和聚类,你可以轻松找到适合您当前正在研究的技术的数据集。 除了了解如何对人们进行教育之外,他们的团队当然对机器学习数据集以及如何对其进行评估也非常了解。

地址

https://archive.ics.uci.edu/ml/index.php


往期精彩回顾





本站qq群851320808,加入微信群请扫码:

浏览 102
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报