数据集 | 豆瓣电影影评数据集
共 4586字,需浏览 10分钟
· 2024-04-16
一、数据概况
数据源: 豆瓣电影
采集时间:
- 电影&明星 2019年8月上旬
- 影评(用户、评分、评论) 2019年9月初
记录数:
- 电影 140502 部
- 演员 72959 人
- 影评 4428475 条
- 评分 4169420 条
体积: 1.35G
该数据集正好弥补下国内公开电影数据集的空缺, 数据已经过初步清洗,可用于推荐系统、情感分析、知识图谱、新闻传播学、社会学文化变迁等多个领域(或主题)。
数据集共有5个文件:
-
movies.csv 电影 -
person.csv 演员 -
users.csv 豆瓣用户 -
comments.csv 评论 -
ratings.csv 评分
二、数据格式
2.1 movies.csv
电影数据 movies.csv 采集于 2019年8月上旬 。电影数据共 140502 部,2019 年之前的电影有 139129 ,当前未上映的有 1373 部,包含 21 个字段,部分字段数据为空,字段说明如下:
- MOVIE_ID: 电影ID,对应豆瓣的DOUBAN_ID
- NAME: 电影名称
- ALIAS: 别名
- ACTORS: 主演
- COVER: 封面图片地址
- DIRECTORS: 导演
- GENRES: 类型
- OFFICIAL_SITE: 官方地址
- REGIONS: 制片国家/地区
- LANGUAGES: 语言
- RELEASE_DATE: 上映日期
- MINS: 片长
- IMDB_ID: IMDbID
- DOUBAN_SCORE: 豆瓣评分
- DOUBAN_VOTES: 豆瓣投票数
- TAGS: 标签
- STORYLINE: 电影描述
- SLUG: 加密的url,可忽略
- YEAR: 年份
- ACTOR_IDS: 演员与PERSON_ID的对应关系,多个演员采用“|”符号分割,格式“演员A:ID|演员B:ID”;
- DIRECTOR_IDS: 导演与PERSON_ID的对应关系,多个导演采用“|”符号分割,格式“导演A:ID|导演B:ID”;
import pandas as pd
movies_df = pd.read_csv('movies.csv')
movies_df
2.2 person.csv
演员数据 person.csv 采集于 2019年8月上旬 。person.csv 文件只包括演员和导演,不包含豆瓣用户数据,共72959个名人数据,包含10个字段,每个PERSON_ID都会对应一个name,不存在PERSON_ID的数据已过滤,各个字段说明如下:
- PERSON_ID: 名人ID
- NAME: 演员名称
- SEX: 性别
- NAME_EN: 更多英文名
- NAME_ZH: 更多中文名
- BIRTH: 出生日期
- BIRTHPLACE: 出生地
- CONSTELLATORY: 星座
- PROFESSION: 职业
- BIOGRAPHY: 简介,存在简介数据的名人只有15135个。
person_df = pd.read_csv('person.csv')
person_df
2.3 users.csv
影评用户采集于 2019年9月初 。users.csv 数据为豆瓣用户的脱敏信息,主要是与评论和评分绑定在一起,共获取了639125用户数据,包含2个字段(已删除两个),具体的字段如下:
USER_MD5:USER_ID加密的MD5,去敏处理
USER_NICKNAME: 评论用户昵称
USER_AVATAR: 评论用户头像(已删除)
USER_URL: 评论用户url(已删除)
users_df = pd.read_csv('users.csv')
users_df
2.4 ratings.csv
影评评分采集于 2019年9月初 。评分数据从评论数据中获得,由于豆瓣限制了未登录用户查看的数据量,所以每部电影最多 320 个评分,最终得到 600384 个用户的 4169420 条评分数据,涉及电影 68471 部,评分值为1-5分(1-很差,2-较差,3-还行,4-推荐,5-力荐),共包含5个字段,数据格式如下:
RATING_ID: 评分ID
USER_MD5:USER_ID加密的MD5
MOVIE_ID: 电影ID,对应豆瓣的DOUBAN_ID
RATING: 评分
RATING_TIME: 评分时间
ratings_df = pd.read_csv('ratings.csv')
ratings_d
2.5 comments.csv
影评comments.csv 采集于 2019年9月初 。评论数据共4428475 条,用户 638963 个,电影 68887 包含 7 个字段,各个字段说明如下:
COMMENT_ID: 评论ID
USER_MD5:USER_ID加密的MD5
MOVIE_ID: 电影ID,对应豆瓣的DOUBAN_ID
CONTENT: 评论内容
VOTES: 评论赞同数
RATINGS: 评论携带的分数
COMMENT_TIME: 评论时间
comments_df = pd.read_csv('comments.csv')
comments_df
三、获取数据
-
微信搜索「公众号: 斗码小院」并点击关注 -
后台回复「电影数据集」 获取百度网盘下载链接