数据集 | 3394w条豆瓣书评数据集
大邓和他的Python
共 5972字,需浏览 12分钟
· 2024-04-18
一、豆瓣读书介绍
数据集: douba-book
数据源: 豆瓣读书
记录数:
- 标签 120 个
- 书 17967 部
- 书评 33941454 条
书评日期起止: 2005-06-12 ~ 2018-10-13
体积: 2.11G(解压后5.52G)
该数据已经过初步清洗,可用于推荐系统、情感分析、知识图谱、社会学文化变迁等多个领域(或主题)。
二、查看数据
2.1 读取数据
下载 douban_book.csv.gz 解压后,可以看到数据集中有一个 douban_book.csv 文件。
import pandas as pd
df = pd.read_csv('douban_book.csv.gz', compression='gzip')
print(len(df))
df
Run
33941454
2.2 所含字段
for col in df.columns:
print(f' - {col}')
Run
- tag 标签
- book_name 书名
- user_name 书评人
- date 书评发布日期
- comment 书评内容
- star 评分(1-5)
- vote_count 书评获赞数
2.3 覆盖日期
书评发布日期覆盖(最早~ 最晚)
df['date'] = pd.to_datetime(df['date'])
print(df['date'].min())
print(df['date'].max())
Run
2005-06-12 00:00:00
2018-10-13 00:00:00
2.4 标签
print(df.tag.nunique())
print(df.tag.unique())
Run
120
['思想' '科技' '金融' '政治学' '随笔' '爱情' '名著' '幾米' '人文' '交互' '悬疑' '算法' '哲学' '艺术史'
'历史' '用户体验' '绘画' '诗词' '考古' '心理学' '互联网' '戏剧' '安妮宝贝' '艺术' '东野圭吾' '散文' '魔幻'
'童话' '商业' 'UCD' '日本文学' '武侠' '音乐' '通信' '科幻小说' '科普' '程序' '生活' '张悦然' '经济'
'小说' '科幻' '军事' '心理' '文学' '电影' '社会学' '广告' '管理' '励志' '耽美' '郭敬明' '穿越'
'阿加莎·克里斯蒂' '杂文' '传记' '韩寒' '设计' '落落' '言情' '职场' '成长' '佛教' '女性' '政治' '近代史'
'营销' '推理小说' '建筑' '经典' '外国名著' '二战' '鲁迅' 'J.K.罗琳' '奇幻' '外国文学' '校园' '人物传记'
'西方哲学' '自由主义' '文化' '旅行' '张小娴' '企业史' '国学' '摄影' '亦舒' '青春' '科学' '策划' 'web'
'创业' '美术' '宗教' '古龙' '沧月' '村上春树' '社会' '股票' '理财' '日本漫画' '轻小说' '数学' '神经网络'
'网络小说' '当代文学' '中国历史' '三毛' '回忆录' '古典文学' '交互设计' '推理' '高木直子' '中国文学' '青春文学'
'金庸' 'UE' '投资' '编程' '几米']
2.5 可视化
书评发布数量随年份变化
import matplotlib.pyplot as plt
import matplotlib
import matplotlib_inline
matplotlib_inline.backend_inline.set_matplotlib_formats('png', 'svg')
import scienceplots
import platform
#初始化matplotlib汉化美化配置
plt.style.use(['science', 'no-latex', 'cjk-sc-font'])
system = platform.system() # 获取操作系统类型
if system == 'Windows':
font = {'family': 'SimHei'}
elif system == 'Darwin':
font = {'family': 'Arial Unicode MS'}
else:
font = {'family': 'sans-serif'}
matplotlib.rc('font', **font) # 设置全局字体
#构造数据
date_series = []
volume_series = []
for date, year_df in df.groupby(pd.Grouper(key='date', freq='M')):
#这里的date, month_df都是特殊数据类型
date_series.append(date.date())
volume_series.append(len(year_df))
volume_by_time_df = pd.DataFrame({'date': date_series, 'volume': volume_series})
volume_by_time_df['date'] = pd.to_datetime(volume_by_time_df['date'])
#开始绘图
plt.figure(figsize=(10, 5))
plt.plot(volume_by_time_df.date,
volume_by_time_df.volume,
linestyle = '--')
plt.scatter(volume_by_time_df.date,
volume_by_time_df.volume,
s=8)
plt.title('豆瓣读书随年份书评数量变化(2005.6.12 ~ 2018.10.13)',
fontsize=10)
plt.xlabel('日期')
plt.ylabel('书评数量')
plt.savefig('plot.png', dpi=200)
plt.show()
三、相关内容
四、获取数据
https://textdata.cn/blog/2024-04-17-douban-book-3394w-ratings-comments-dataset/
精选内容
评论
CVPR 2024|大视觉模型的开山之作!无需任何语言数据即可打造大视觉模型
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达作者丨科技猛兽编辑丨极市平台极市导读 本文提出一种序列建模 (sequential modeling) 的方法,不使用任何语言数据,训练大视觉模型。本文目录1 序列建模打造大视觉模型(来自 UCB,Johns Hopki
小白学视觉
0
CVPR 2024|大视觉模型的开山之作!无需任何语言数据即可打造大视觉模型
↑ 点击蓝字 关注极市平台作者丨科技猛兽编辑丨极市平台极市导读 本文提出一种序列建模 (sequential modeling) 的方法,不使用任何语言数据,训练大视觉模型。>>加入极市CV技术交流群,走在计算机视觉的最前沿本文目录1 序列建模打造大视觉模型(来自 U
极市平台
1
豆瓣9.7,这部Java神作第3版重磅上市!
文末赠书Java 程序员们开年就有重磅好消息,《Effective Java 中文版(原书第 3 版)》要上市啦!该书的第1版出版于 2001 年,当时就在业界流传开来,受到广泛赞誉。时至今日,已热销近20年,本书第 3 版已是 Java 程序员的必读神书,被誉为“Java 四大名著之一”,甚至连
编码之外
0
豆瓣9分线代教材免费了!斯坦福伯克利都在用,新版PDF直接下载
西风 发自 凹非寺 量子位 | 公众号 QbitAI豆瓣评分9.2、斯坦福都在用的线性代数教材,全新第四版免费来袭!没错,就是那本被认为“直击线性代数理论核心”的Linear Algebra Done Right。此书之前已发售三版,风靡30多个国家的200多所高校,这其中就包括斯坦福、UCB等顶尖
机器学习算法与Python实战
0
21.3K star!推荐一款可视化自动化测试/爬虫/数据采集神器!功能免费且强大!
【温馨提示】由于公众号更改了推送规则,不再按照时间顺序排列,如果不想错过测试开发技术精心准备的的干货文章,请将测试开发技术设为“星标☆”,看完文章在文尾处点亮“在看”!大家好,我是狂师!在大数据时代,信息的获取与分析变得尤为重要。对于开发者、数据分析师乃至非技术人员来说,能够高效地采集网络数据并进行
测试开发技术
4
小美播报|3月IPTV数据排行榜发布!
小美播报3月IPTV数据排行榜:《与凤行》登顶连续剧榜榜首拥有4.05亿家庭用户的中国IPTV平台已经成为国内主流视听平台,IPTV平台数据对视听产业各环节都具有重要意义。截至2024年4月,全国已有29个省级IPTV加入“看中国”,覆盖全国超2.25亿户家庭、辐射近7亿人。点击查看详情湖南广电与马
流媒体网
0
豆瓣9.7,这部Java神作第3版重磅上市!
Java 程序员们开年就有重磅好消息,《Effective Java 中文版(原书第 3 版)》要上市啦!该书的第1版出版于 2001 年,当时就在业界流传开来,受到广泛赞誉。时至今日,已热销近20年,本书第 3 版已是 Java 程序员的必读神书,被誉为“Java 四大名著之一”,甚至连 Java
菜鸟学Python
0
python读取一个文件里面几百个csv数据集然后按照列名合并一个数据集
点击上方“Python爬虫与数据挖掘”,进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤但使龙城飞将在,不教胡马度阴山。大家好,我是Python进阶者。一、前言前几天在Python最强王者交流群【FiNε_】问了一个Python自动化办公,问题如下:python 读取一个文
Python爬虫与数据挖掘
3