数据集 | 豆瓣电影影评数据集

大邓和他的Python

共 4586字,需浏览 10分钟

 · 2024-04-16

一、数据概况

数据源: 豆瓣电影

采集时间: 
   - 电影&明星 2019年8月上旬
   - 影评(用户、评分、评论) 2019年9月初
   
记录数:
   - 电影 140502 部
   - 演员 72959 人
   - 影评 4428475 条
   - 评分 4169420 条
   
体积: 1.35G 

该数据集正好弥补下国内公开电影数据集的空缺, 数据已经过初步清洗,可用于推荐系统、情感分析、知识图谱、新闻传播学、社会学文化变迁等多个领域(或主题)。

数据集共有5个文件:

  • movies.csv 电影
  • person.csv 演员
  • users.csv 豆瓣用户
  • comments.csv 评论
  • ratings.csv  评分


二、数据格式

2.1 movies.csv

电影数据 movies.csv 采集于 2019年8月上旬 。电影数据共 140502 部,2019 年之前的电影有 139129 ,当前未上映的有 1373 部,包含 21 个字段,部分字段数据为空,字段说明如下:

- MOVIE_ID: 电影ID,对应豆瓣的DOUBAN_ID
- NAME: 电影名称
- ALIAS: 别名
- ACTORS: 主演
- COVER: 封面图片地址
- DIRECTORS: 导演
- GENRES: 类型
- OFFICIAL_SITE: 官方地址
- REGIONS: 制片国家/地区
- LANGUAGES: 语言
- RELEASE_DATE: 上映日期
- MINS: 片长
- IMDB_ID: IMDbID
- DOUBAN_SCORE: 豆瓣评分
- DOUBAN_VOTES: 豆瓣投票数
- TAGS: 标签
- STORYLINE: 电影描述
- SLUG: 加密的url,可忽略
- YEAR: 年份
- ACTOR_IDS: 演员与PERSON_ID的对应关系,多个演员采用“|”符号分割,格式“演员A:ID|演员B:ID”;
- DIRECTOR_IDS: 导演与PERSON_ID的对应关系,多个导演采用“|”符号分割,格式“导演A:ID|导演B:ID”;

import pandas as pd

movies_df = pd.read_csv('movies.csv')
movies_df


2.2 person.csv

演员数据 person.csv 采集于  2019年8月上旬 。person.csv 文件只包括演员和导演,不包含豆瓣用户数据,共72959个名人数据,包含10个字段,每个PERSON_ID都会对应一个name,不存在PERSON_ID的数据已过滤,各个字段说明如下:

- PERSON_ID: 名人ID
- NAME: 演员名称
- SEX: 性别
- NAME_EN: 更多英文名
- NAME_ZH: 更多中文名
- BIRTH: 出生日期
- BIRTHPLACE: 出生地
- CONSTELLATORY: 星座
- PROFESSION: 职业
- BIOGRAPHY: 简介,存在简介数据的名人只有15135个。

person_df = pd.read_csv('person.csv')
person_df


2.3 users.csv

影评用户采集于 2019年9月初 。users.csv 数据为豆瓣用户的脱敏信息,主要是与评论和评分绑定在一起,共获取了639125用户数据,包含2个字段(已删除两个),具体的字段如下:

USER_MD5:USER_ID加密的MD5,去敏处理
USER_NICKNAME: 评论用户昵称
USER_AVATAR: 评论用户头像(已删除)
USER_URL: 评论用户url(已删除)


users_df = pd.read_csv('users.csv')
users_df


2.4 ratings.csv

影评评分采集于 2019年9月初  。评分数据从评论数据中获得,由于豆瓣限制了未登录用户查看的数据量,所以每部电影最多 320 个评分,最终得到 600384 个用户的 4169420 条评分数据,涉及电影 68471 部,评分值为1-5分(1-很差,2-较差,3-还行,4-推荐,5-力荐),共包含5个字段,数据格式如下:

RATING_ID: 评分ID
USER_MD5:USER_ID加密的MD5
MOVIE_ID: 电影ID,对应豆瓣的DOUBAN_ID
RATING: 评分
RATING_TIME: 评分时间

ratings_df = pd.read_csv('ratings.csv')
ratings_d


2.5 comments.csv

影评comments.csv 采集于  2019年9月初  。评论数据共4428475 条,用户 638963 个,电影 68887 包含 7 个字段,各个字段说明如下:

COMMENT_ID: 评论ID
USER_MD5:USER_ID加密的MD5
MOVIE_ID: 电影ID,对应豆瓣的DOUBAN_ID
CONTENT: 评论内容
VOTES: 评论赞同数
RATINGS: 评论携带的分数
COMMENT_TIME: 评论时间


comments_df = pd.read_csv('comments.csv')
comments_df


三、获取数据

数据集作者的「公众号: 斗码小院」,欢迎关注
  1. 微信搜索「公众号: 斗码小院」并点击关注
  2. 后台回复「电影数据集」 获取百度网盘下载链接



精选内容

LIST | 社科(经管)可用数据集列表
LIST | 文本分析代码列表
LIST | 社科(经管)文本挖掘文献列表
管理科学学报 | 使用「软余弦相似度」测量业绩说明会「答非所问程度」
文献&代码 | 使用Python计算语义品牌评分(Semantic Brand Score)
数据集 | 众筹金融投资平台kiva借贷数据
数据集(更新) | 372w政府采购合同公告明细数据(2024.03)
数据集  | 人民网政府留言板原始文本(2011-2023.12)
数据集  |  人民日报/经济日报/光明日报 等 7 家新闻数据集
可视化 | 人民日报语料反映七十年文化演变
数据集 | 2024年中国全国5级行政区划(省、市、县、镇、村)
数据集 | 三板上市公司年报2002-2023.12
数据集 | 人民网地方领导留言板原始文本(2011-2023.12)
数据集 | 3571万条专利申请数据集(1985-2022年)
数据集 |  专利转让数据集(1985-2021)
数据集 | 用来练习pandas的招聘数据
代码 | 使用 3571w 专利申请数据集构造面板数据
代码 | 使用「新闻数据集」计算 「经济政策不确定性」指数
数据集 | 国省市三级gov工作报告文本
代码 | 使用「新闻数据」生成概念词频「面板数据」
代码 | 使用 3571w 专利申请数据集构造面板数据
代码 | 使用gov工作报告生成数字化词频「面板数据」
Polars库 | 最强 Pandas 平替来了
cpca库 | 中国省、市区划匹配库
opencc | 中文简体、繁体转换库
可视化 | 使用 DataMapPlot 绘制数据地图

浏览 125
10点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
10点赞
评论
收藏
分享

手机扫一扫分享

举报