数据集 | 豆瓣电影影评数据集-技术圈

一、数据概况

数据源: 豆瓣电影

采集时间: 
   - 电影&明星 2019年8月上旬
   - 影评(用户、评分、评论) 2019年9月初
   
记录数:
   - 电影 140502 部
   - 演员 72959 人
   - 影评 4428475 条
   - 评分 4169420 条
   
体积: 1.35G

该数据集正好弥补下国内公开电影数据集的空缺，数据已经过初步清洗，可用于推荐系统、情感分析、知识图谱、新闻传播学、社会学文化变迁等多个领域(或主题)。

数据集共有5个文件:

movies.csv 电影
person.csv 演员
users.csv 豆瓣用户
comments.csv 评论
ratings.csv 评分

二、数据格式

2.1 movies.csv

电影数据 movies.csv 采集于 2019年8月上旬。电影数据共 140502 部，2019 年之前的电影有 139129 ，当前未上映的有 1373 部，包含 21 个字段，部分字段数据为空，字段说明如下:

- MOVIE_ID: 电影ID，对应豆瓣的DOUBAN_ID
- NAME: 电影名称
- ALIAS: 别名
- ACTORS: 主演
- COVER: 封面图片地址
- DIRECTORS: 导演
- GENRES: 类型
- OFFICIAL_SITE: 官方地址
- REGIONS: 制片国家/地区
- LANGUAGES: 语言
- RELEASE_DATE: 上映日期
- MINS: 片长
- IMDB_ID: IMDbID
- DOUBAN_SCORE: 豆瓣评分
- DOUBAN_VOTES: 豆瓣投票数
- TAGS: 标签
- STORYLINE: 电影描述
- SLUG: 加密的url，可忽略
- YEAR: 年份
- ACTOR_IDS: 演员与PERSON_ID的对应关系,多个演员采用“|”符号分割，格式“演员A:ID|演员B:ID”；
- DIRECTOR_IDS: 导演与PERSON_ID的对应关系,多个导演采用“|”符号分割，格式“导演A:ID|导演B:ID”；

import pandas as pd

movies_df = pd.read_csv('movies.csv')
movies_df

2.2 person.csv

演员数据 person.csv 采集于 2019年8月上旬。person.csv 文件只包括演员和导演，不包含豆瓣用户数据，共72959个名人数据，包含10个字段，每个PERSON_ID都会对应一个name，不存在PERSON_ID的数据已过滤，各个字段说明如下:

- PERSON_ID: 名人ID
- NAME: 演员名称
- SEX: 性别
- NAME_EN: 更多英文名
- NAME_ZH: 更多中文名
- BIRTH: 出生日期
- BIRTHPLACE: 出生地
- CONSTELLATORY: 星座
- PROFESSION: 职业
- BIOGRAPHY: 简介，存在简介数据的名人只有15135个。

person_df = pd.read_csv('person.csv')
person_df

2.3 users.csv

影评用户采集于 2019年9月初。users.csv 数据为豆瓣用户的脱敏信息，主要是与评论和评分绑定在一起，共获取了639125用户数据，包含2个字段（已删除两个），具体的字段如下：

USER_MD5：USER_ID加密的MD5,去敏处理
USER_NICKNAME: 评论用户昵称
USER_AVATAR: 评论用户头像（已删除）
USER_URL: 评论用户url（已删除）

users_df = pd.read_csv('users.csv')
users_df

2.4 ratings.csv

影评评分采集于 2019年9月初。评分数据从评论数据中获得，由于豆瓣限制了未登录用户查看的数据量，所以每部电影最多 320 个评分，最终得到 600384 个用户的 4169420 条评分数据，涉及电影 68471 部，评分值为1-5分（1-很差，2-较差，3-还行，4-推荐，5-力荐），共包含5个字段，数据格式如下：

RATING_ID: 评分ID
USER_MD5：USER_ID加密的MD5
MOVIE_ID: 电影ID，对应豆瓣的DOUBAN_ID
RATING: 评分
RATING_TIME: 评分时间

ratings_df = pd.read_csv('ratings.csv')
ratings_d

2.5 comments.csv

影评comments.csv 采集于 2019年9月初。评论数据共4428475 条，用户 638963 个，电影 68887 包含 7 个字段，各个字段说明如下:

COMMENT_ID: 评论ID
USER_MD5：USER_ID加密的MD5
MOVIE_ID: 电影ID，对应豆瓣的DOUBAN_ID
CONTENT: 评论内容
VOTES: 评论赞同数
RATINGS: 评论携带的分数
COMMENT_TIME: 评论时间

comments_df = pd.read_csv('comments.csv')
comments_df

三、获取数据

数据集作者的「公众号: 斗码小院」，欢迎关注

微信搜索「公众号: 斗码小院」并点击关注
后台回复「电影数据集」获取百度网盘下载链接

精选内容

     LIST | 社科(经管)可用数据集列表
    

     LIST | 文本分析代码列表
    

     LIST | 社科(经管)文本挖掘文献列表
    

     管理科学学报 | 使用「软余弦相似度」测量业绩说明会「答非所问程度」
    

     文献&代码 | 使用Python计算语义品牌评分(Semantic Brand Score)
    

     数据集 | 众筹金融投资平台kiva借贷数据
    

     数据集(更新) | 372w政府采购合同公告明细数据（2024.03）

     数据集  | 人民网政府留言板原始文本(2011-2023.12)
    

     数据集  |  人民日报/经济日报/光明日报 等 7 家新闻数据集
    

     可视化 | 人民日报语料反映七十年文化演变
    

     数据集 | 2024年中国全国5级行政区划（省、市、县、镇、村）
    

     数据集 | 三板上市公司年报2002-2023.12
    

     数据集 | 人民网地方领导留言板原始文本(2011-2023.12)
    

     数据集 | 3571万条专利申请数据集(1985-2022年)
    

     数据集 |  专利转让数据集(1985-2021)
    

     数据集 | 用来练习pandas的招聘数据

     代码 | 使用 3571w 专利申请数据集构造面板数据
    

     代码 | 使用「新闻数据集」计算 「经济政策不确定性」指数
    

     数据集 | 国省市三级gov工作报告文本
    

     代码 | 使用「新闻数据」生成概念词频「面板数据」
    

     代码 | 使用 3571w 专利申请数据集构造面板数据
    

     代码 | 使用gov工作报告生成数字化词频「面板数据」
    

     Polars库 | 最强 Pandas 平替来了
    

     cpca库 | 中国省、市区划匹配库
    

     opencc | 中文简体、繁体转换库
    

     可视化 | 使用 DataMapPlot 绘制数据地图