LIST | 社科(经管)可用数据集列表

大邓和他的Python

共 2317字,需浏览 5分钟

 · 2024-04-14

   


个人感觉博客 textdata.cn 优质数据集都集中在这里了,我将内容按大类分成

- 用户层面
- 企业层面
- 政府社会层面
- 词向量资源
- 词典资源

用户层面

2T数据集 | 使用GH Archive获取Github社区用户数据  

2G数据集 | 80w知乎用户问答数据

数据集 | 哔哩哔哩 1 亿用户数据

1.5G数据集 | 200万条Indiegogo众筹项目信息

12G数据集 | 23w条Kickstarter项目信息

数据集 | 马前卒睡前消息文稿汇总

YelpDaset: 酒店管理类数据集10+G

数据集 | 3.3万 Instagram Influencer的 1018万条推文数据


企业层面

     
数据集(付费) | 中国裁判文书网(2010-2021)
数据集(付费) | 36330条上市公司仲裁数据(2000-2021)
数据集(付费) |  3.9G全国POI地点兴趣点数据集
数据集(付费) | 2.49亿条中国工商注册企业信息(23.9更新)
数据集(付费) | 5.6亿条海关数据集(2000-2021.3 已统一商品hs编码)
数据集(付费) | 3571万条专利申请数据集(1985-2022年)
数据集(付费) | 专利转让数据集(1985-2021)
数据集(付费) | 上市公司 208 万条专利数据集 (1991-2022)
数据集(付费) | 2001-2022年A股上市公司年报&管理层讨论与分析
词向量(付费) | 使用MD&A2001-2022语料训练Word2Vec模型
数据集(付费) | 2014年-2022年监管问询函
数据集(付费) | 2006年-2022年企业社会责任报告
数据集(付费) | 84w条业绩说明会问答数据(2005-2023)
数据集 | 使用Python对27G招股说明书进行文本分析
数据集 | 70G上市公司定期报告数据集
数据集 | 2007-2021年A股上市公司年度报告(txt文件)
数据集 | 上市公司高管违规数据(2008-2022)
数据集 | 2007-2021年上市公司「委托贷款公告」
数据集 | 90w条中国上市公司高管数据



政府社会层面

     
数据集(付费) | 人民日报/经济日报/光明日报 等 7 家新闻数据集
数据集(付费) | 372w政府采购合同公告明细数据(2024.03)
数据集 | 众筹金融投资平台kiva借贷数据
数据集 | cctv新闻联播文稿数据
数据集 | 人民网政府留言板原始文本(2011-2023.12)
数据集 | 2024年中国全国5级行政区划(省、市、县、镇、村)
数据集 | 行政区划代码历史沿革数据集




词向量资源

使用3751w专利申请数据集按年份(按省份)训练词向量

预训练模型(付费) | 使用1000w专利摘要训练word2vec模型,可用于开发词典

EDGAR | 25年数据的预训练词向量模型(含代码)

数据集 | 多语言对齐词向量下载(含代码)

NLP资源 | 汽车、金融等9大领域预训练词向量模型下载资源




词典资源

Nature | 通用中英文六维语义情感词典   

中文语义常用词典 | ChineseSemanticKB

DomainWordsDict | 领域词库构建方法与68领域、916万级专业词库分享

小规模金融并购、投资事件图谱设计概述与数据构成解析

Google Books Ngram Viewer显示英文词汇历史使用趋势

十万级 | 多领域因果事件对数据集对外开源

中文心理词典,含具体性、可成象性等指标





浏览 127
10点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
10点赞
评论
收藏
分享

手机扫一扫分享

举报