吐血整理:43种机器学习开源数据集(附地址/调用方法)
导读:学习机器学习是一个不断探索和实验的过程,因此,本文将主要介绍常见的开源数据集,便于读者学习和实验各种机器学习算法。
类型:比较全面,各类型数据都有涉及 网址: http://archive.ics.uci.edu/ml/datasets.php
类型:比较全面,各类型数据都有涉及 网址:https://www.kaggle.com/datasets
类型:计算机视觉数据 网址:http://image-net.org/
类型:计算机视觉数据 网址:https://www.visualdata.io/
类型:计算机视觉数据 网址:http://mscoco.org/
类型:情感分析数据 网址: http://nlp.stanford.edu/sentiment/code.html
类型:情感分析数据 网址: http://ai.stanford.edu/~amaas/data/sentiment/
类型:情感分析数据 网址: http://help.sentiment140.com/for-students/
类型:自然语言处理 网址:https://hotpotqa.github.io/
类型:自然语言处理 网址:https://www.cs.cmu.edu/~./enron/
类型:自然语言处理 网址: https://snap.stanford.edu/data/web-Amazon.html
类型:自动驾驶 网址:http://apolloscape.auto/
类型:自动驾驶 网址:http://bdd-data.berkeley.edu/
类型:自动驾驶 网址: http://robotcar-dataset.robots.ox.ac.uk/
类型:公共政府数据集 网址:https://www.data.gov/
类型:公共政府数据集 网址: https://catalog.data.gov/dataset/food-environment-atlas-f4a22
类型:公共政府数据集 网址: https://catalog.data.gov/dataset/annual-survey-of-school-system-finances
类型:公共政府数据集 网址:https://nces.ed.gov/
类型:公共政府数据集 网址:http://datausa.io/
类型:公共政府数据集 网址:http://www.stats.gov.cn/
类型:金融与经济数据集 网址:https://www.quandl.com/
类型:金融与经济数据集 网址:https://data.worldbank.org/
类型:金融与经济数据集 网址:https://www.imf.org/en/Data
类型:金融与经济数据集 网址:https://markets.ft.com/data/
类型:金融与经济数据集 网址: http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0
类型:金融与经济数据集
网址: https://www.aeaweb.org/resources/data/us-macro-regional
类型:语音数据集 网址: https://research.google.com/audioset/
类型:语音数据集 网址: https://catalog.ldc.upenn.edu/LDC2002T43
类型:语音数据集 网址:http://www.openslr.org/12/
sklearn.datasets.load_ :自带数据集(数据量较小) sklearn.datasets.fetch_ :在线下载的数据集 sklearn.datasets.make_ :生成指定类型的随机数据集 sklearn.datasets.load_svmlight_file:svmlight/libsvm格式的数据集 sklearn.datasets.fetch_mldata:mldata.org在线下载数据集
from sklearn.datasets import load_iris
data = load_iris()
# 查看数据描述
print(data.DESCR)
X = data.data
y = data.target
调用方法:load_boston 模型类型:回归 数据规模(样本*特征):506*13
CRIM:城镇人均犯罪率。 ZN:住宅用地超过25000平方英尺的比例。 INDUS:城镇非零售商用土地的比例。 CHAS:查理斯河空变量(如果边界是河流,则为1;否则为0)。 NOX:一氧化氮浓度。 RM:住宅平均房间数。 AGE:1940 年之前建成的自用房屋比例。 DIS:到波士顿五个中心区域的加权距离。 RAD:辐射性公路的接近指数。 TAX:每10000 美元的全值财产税率。 PTRATIO:城镇师生比例。 MEDV:自住房的平均房价,以千美元计。
调用方法:load_iris 模型类型:分类 数据规模(样本*特征):105*4
sepal length (cm):萼片长度。 sepal width (cm):萼片宽度。 petal length (cm):花瓣长度。 petal width (cm):花瓣宽度。
调用方法:load_digits 模型类型:分类 数据规模(样本*特征):1797*64
调用方法:load_diabetes 模型类型:回归 数据规模(样本*特征):422*10
调用方法:Load_wine 模型类型:分类 数据规模(样本*特征):178*13
调用方法:load_breast_cancer 模型类型:分类 数据规模(样本*特征):569*30
调用方法:load_linnerud 模型类型:多元回归 数据规模(样本*特征):20*3
from sklearn.datasets import fetch_20newsgroups
newsgroups_train = fetch_20newsgroups(subset='train')
newsgroups_test = fetch_20newsgroups(subset='test')
调用方法:fetch_olivetti_faces 模型类型:降维 数据规模(样本*特征):400*64*64
调用方法:fetch_20newsgroups 模型类型:分类 数据规模(样本*特征):18846*1
调用方法:fetch_20newsgroups_vectorized 模型类型:分类 数据规模(样本*特征):18846*130107
调用方法:fetch_lfw_people 模型类型:分类 数据规模(样本*特征):13233*5828
调用方法:fetch_rcv1 模型类型:分类 数据规模(样本*特征):804414*47236
调用方法:fetch_california_housing 模型类型:回归 数据规模(样本*特征):20640*8
调用方法:fetch_covtype 模型类型:多分类 数据规模(样本*特征):581012*54
from sklearn.datasets import load_svmlight_file
X_train , y_train = load_svmlight_file ("/ path / to / train_dataset.txt " )newsgroups_test = fetch_20newsgroups(subset='test')
from sklearn.datasets import fetch_openml
mice = fetch_openml(name='miceprotein', version=4)
print(mice.DESCR)
mice.url
关于作者:张春强,是一位具有3年C/C++、7年大数据和机器学习经验且富有创造力的技术专家,在技术一线摸爬滚打近10年,先后就职于大型IT、世界500强企业,目前就职于某大型金融科技集团,负责数据挖掘、机器学习相关工作的管理和研发。
张和平,现就职于某互联网金融集团科技公司,任大数据模型工程师,负责机器学习在金融风控和用户运营方面的应用工作,善于运用机器学习、数据挖掘、知识图谱和大数据技术解决实际的业务问题。在大数据风控建模、用户画像、大数据平台建设等方面有丰富的实践经验。
本文摘编自《机器学习:软件工程方法与实现》,经出版方授权发布。
延伸阅读《机器学习:软件工程方法与实现》
点击上图了解及购买
转载请联系微信:DoctorData
推荐语:大型金融集团专家撰写,将软件工程方法、工具和策略应用到机器学习,提供高质量代码设计和工业应用框架。
评论