《我们与恶的距离》是一部非常有深度的台剧。演员的演技无可挑剔,剧情编排也很新颖,而且逻辑严谨,剧情环环相扣,不拖泥带水。剧中出了很多火遍全网的台词,如“所以爱会消失,对不对?”,“我们都是好人。不知道为什么事情会变成这样子,老天爷到底要我们学什么。”
该剧上映于2019年春,已经两年了,多次在朋友圈看到该剧的好评。记得我看了一小段,但因为那段时间工作非常忙就被中断了(另一个原因是我基本不看电视剧,我看的上一部电视是《琅琊榜》,中间几年一部没看过)。 最近刷到B站知名up主在推荐这部剧,所以我在周末一口气看完了(全剧共10集)。
对于剧中要探讨的诸多问题,也许我们正在经历,也许我们未来会经历。但无论何时,假设身临其境地面对,都需要足够的勇气。顺着该剧每集开始的提醒,我建议对这部剧感兴趣的人,一定要酌情观看,尤其是年龄较低的朋友最好别看。
本文不会对剧中的内容和观点做深入的讨论和评价,只分析豆瓣网友对这部剧的评论和感受。
一、爬取豆瓣剧评
打开豆瓣首页,搜索剧名,进入《我们与恶的距离》的详情页。
点击全部短评进入评论详情页面,每一页有20条评论。按F12,鼠标前后翻页抓取网页请求信息。
根据网页信息可以得到请求方式为GET,同时获取到Request URL,Request Headers,Cookies。有了这些信息,就可以写代码爬取短评内容了。
drama_code = 30181230
base_url = "https://movie.douban.com/subject/{}/comments".format(drama_code)
for i in range(25):
params = {'percent_type': '', 'start': str(20*i), 'limit': '20', 'status': 'P', 'sort': 'new_score',
'comments_only': '1', 'ck': 'qN8_'}
try:
# 发送GET请求获取数据,headers和cookies从浏览器中获取
response = requests.get(base_url, headers=headers, cookies=cookies, params=params)
if response.status_code != 200:
break
result = response.json()
print('[INFO]第{}页数据获取成功。'.format(i + 1, ))
except Exception as e:
print('[ERROR]第{}页数据获取失败:{}'.format(i + 1, e))
代码中使用requests库向豆瓣发送GET请求,一次请求可以获取一页评论数据,改变URL中的start,循环多次发送请求,即可获取所有的评论数据。
网页爬取成功后,用正则表达式匹配需要用到的数据,依次写到excel中(文末提供完整代码的获取方式)。
出于豆瓣的限制,非登录状态下只能获取到11页数据(220条),登录状态下只能获取到25页数据(500条),不用爬虫,人工在网页上浏览也是如此。不过,豆瓣会优先把点赞(有用)数高的评论排在前面(但不是完全降序),所以获取到的500条评论是相对点赞更多的,已经可以满足我们的要求了。
二、数据有效性验证
拿到了数据,先验证一下数据是否可用,主要判断评论中是否有重复的用户名,以及是否每个用户都看过这部剧。
对用户名进行验证,重名用户数为0,获取到的500条评论来自不同用户,没有重复用户的情况下评论更客观。
对用户是否都看过此剧进行验证,所有评论用户都“看过”。
三、评论分析和数据可视化
1. 500位用户分别打了多少星?
豆瓣的1星到5星对应“很差”,“较差”,“还行”,“推荐”和“力荐”,在获取的数据中有11个用户没有打星,可以设置为0星。从用户打星的分布来看,5星超过了60%,4星和5星超过了80%,与文章开头的截图基本吻合。
2. 评论中主要在讨论些什么?
3. 评论热词被提到了多少次?
根据热词提取结果,评论中被提到最多的词是“社会”,大部分网友在讨论剧中暴露出来的社会问题。而其他的热词如“受害者”、“精神”、“新闻”等都可以理解成社会问题中的一部分。
4. 评论获得了多少网友的赞同?
从评论的赞同数分布来看,大部分评论的赞同数都小于100。不过有4%的评论获得了超过500次赞,说明网友对评论点赞有很强的“马太效应”,点赞高的评论更可能排在前面,被更多人看到,然后获得更多的赞。
5. 热评都获得了多少点赞?
点赞数前三的评论都获得了超过了1W次点赞,超过了点赞数小于100的90%评论的总点赞数,再次说明“马太效应”的存在。
6. 点赞前三的评论内容是什么?
台剧质量都已经拍到这个深度了,国产剧还在拍什么家长里短,情情爱爱。。。。
韩剧在稳中求变,台湾剧在爆发式突变。我们的剧以不变应万变(反正没人看)
民众在斩草,政府在除根,媒体在浇水,只有王赦在研究土壤。
大家对剧的质量都是有要求的,在大部分电视剧毫无突破时,出现一部有深度的好剧,确实会引导观众去思考。
看到剧名《我们与恶的距离》时,我的第一感受是对英文剧名《The world between Us》的音译。看完整部剧,我也没有感受到“恶”的阴暗感,至于这部剧是在探讨我们与恶的距离,还是我们与爱的距离,亦或是其他的东西,都没有观众看完后去认真思考重要。
四、代码获取
点击关注公众号“Python碎片”,然后在后台回复“theworld”关键字,可以获取本文代码和数据。