数据集 | 3394w条豆瓣书评数据集

大邓和他的Python

共 5972字,需浏览 12分钟

 · 2024-04-18

一、豆瓣读书介绍

数据集: douba-book

数据源: 豆瓣读书
   
记录数:
   - 标签 120 个
   - 书 17967 部
   - 书评 33941454 条
   
书评日期起止: 2005-06-12 ~ 2018-10-13
   
体积: 2.11G(解压后5.52G) 

该数据已经过初步清洗,可用于推荐系统、情感分析、知识图谱、社会学文化变迁等多个领域(或主题)。



二、查看数据

2.1 读取数据

下载 douban_book.csv.gz 解压后,可以看到数据集中有一个 douban_book.csv 文件。

import pandas as pd

df = pd.read_csv('douban_book.csv.gz', compression='gzip')
print(len(df))
df

Run

33941454


2.2 所含字段

for col in df.columns:
    print(f' - {col}')

Run

 - tag          标签
 - book_name    书名
 - user_name    书评人
 - date         书评发布日期
 - comment      书评内容
 - star         评分(1-5)
 - vote_count   书评获赞数

2.3  覆盖日期

书评发布日期覆盖(最早~ 最晚)

df['date'] = pd.to_datetime(df['date'])

print(df['date'].min())
print(df['date'].max())

Run

2005-06-12 00:00:00
2018-10-13 00:00:00

2.4 标签

print(df.tag.nunique())
print(df.tag.unique())

Run

120

['思想' '科技' '金融' '政治学' '随笔' '爱情' '名著' '幾米' '人文' '交互' '悬疑' '算法' '哲学' '艺术史'
 '历史' '用户体验' '绘画' '诗词' '考古' '心理学' '互联网' '戏剧' '安妮宝贝' '艺术' '东野圭吾' '散文' '魔幻'
 '童话' '商业' 'UCD' '日本文学' '武侠' '音乐' '通信' '科幻小说' '科普' '程序' '生活' '张悦然' '经济'
 '小说' '科幻' '军事' '心理' '文学' '电影' '社会学' '广告' '管理' '励志' '耽美' '郭敬明' '穿越'
 '阿加莎·克里斯蒂' '杂文' '传记' '韩寒' '设计' '落落' '言情' '职场' '成长' '佛教' '女性' '政治' '近代史'
 '营销' '推理小说' '建筑' '经典' '外国名著' '二战' '鲁迅' 'J.K.罗琳' '奇幻' '外国文学' '校园' '人物传记'
 '西方哲学' '自由主义' '文化' '旅行' '张小娴' '企业史' '国学' '摄影' '亦舒' '青春' '科学' '策划' 'web'
 '创业' '美术' '宗教' '古龙' '沧月' '村上春树' '社会' '股票' '理财' '日本漫画' '轻小说' '数学' '神经网络'
 '网络小说' '当代文学' '中国历史' '三毛' '回忆录' '古典文学' '交互设计' '推理' '高木直子' '中国文学' '青春文学'
 '金庸' 'UE' '投资' '编程' '几米']

2.5  可视化

书评发布数量随年份变化

import matplotlib.pyplot as plt
import matplotlib
import matplotlib_inline
matplotlib_inline.backend_inline.set_matplotlib_formats('png''svg')
import scienceplots
import platform

#初始化matplotlib汉化美化配置
plt.style.use(['science''no-latex''cjk-sc-font'])
system = platform.system()  # 获取操作系统类型
if system == 'Windows':
    font = {'family''SimHei'}
elif system == 'Darwin':
    font = {'family''Arial Unicode MS'}
else:
    font = {'family''sans-serif'}
matplotlib.rc('font', **font)  # 设置全局字体


#构造数据
date_series = []
volume_series = []
for date, year_df in df.groupby(pd.Grouper(key='date', freq='M')):
    #这里的date, month_df都是特殊数据类型
    date_series.append(date.date())
    volume_series.append(len(year_df))
volume_by_time_df = pd.DataFrame({'date': date_series, 'volume': volume_series})
volume_by_time_df['date'] = pd.to_datetime(volume_by_time_df['date'])



#开始绘图
plt.figure(figsize=(105))

plt.plot(volume_by_time_df.date, 
         volume_by_time_df.volume,
         linestyle = '--')

plt.scatter(volume_by_time_df.date, 
            volume_by_time_df.volume, 
            s=8)

plt.title('豆瓣读书随年份书评数量变化(2005.6.12 ~ 2018.10.13)'
          fontsize=10)

plt.xlabel('日期')
plt.ylabel('书评数量')

plt.savefig('plot.png', dpi=200)

plt.show()

三、相关内容



四、获取数据

https://textdata.cn/blog/2024-04-17-douban-book-3394w-ratings-comments-dataset/


精选内容

LIST | 社科(经管)可用数据集列表
LIST | 文本分析代码列表
LIST | 社科(经管)文本挖掘文献列表
管理科学学报 | 使用「软余弦相似度」测量业绩说明会「答非所问程度」
文献&代码 | 使用Python计算语义品牌评分(Semantic Brand Score)
数据集 |  使用1000w条豆瓣影评训练Word2Vec
数据集 | 众筹金融投资平台kiva借贷数据
数据集(更新) | 372w政府采购合同公告明细数据(2024.03)
数据集  | 人民网政府留言板原始文本(2011-2023.12)
数据集  |  人民日报/经济日报/光明日报 等 7 家新闻数据集
可视化 | 人民日报语料反映七十年文化演变
数据集 | 2024年中国全国5级行政区划(省、市、县、镇、村)
数据集 | 三板上市公司年报2002-2023.12
数据集 | 人民网地方领导留言板原始文本(2011-2023.12)
数据集 | 3571万条专利申请数据集(1985-2022年)
数据集 |  专利转让数据集(1985-2021)
数据集 | 用来练习pandas的招聘数据
代码 | 使用 3571w 专利申请数据集构造面板数据
代码 | 使用「新闻数据集」计算 「经济政策不确定性」指数
数据集 | 国省市三级gov工作报告文本
代码 | 使用「新闻数据」生成概念词频「面板数据」
代码 | 使用 3571w 专利申请数据集构造面板数据
代码 | 使用gov工作报告生成数字化词频「面板数据」
Polars库 | 最强 Pandas 平替来了
cpca库 | 中国省、市区划匹配库
opencc | 中文简体、繁体转换库
可视化 | 使用 DataMapPlot 绘制数据地图


浏览 124
10点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
10点赞
评论
收藏
分享

手机扫一扫分享

举报