如何爬 爱奇艺 弹幕?
裸睡的猪
共 2910字,需浏览 6分钟
· 2021-03-07
来源 | Python爬虫数据分析挖掘
1
前言
最近爱奇艺独播热剧『赘婿』特别火,号主我也在一直追,借助手中的技术,想爬取弹幕分析该剧的具体情况以及网友的评论!
由于为了让小白彻底学会使用python爬取爱奇艺弹幕的技术,因此本文详细介绍如何进行爬取,下文再进行分析数据!
2
分析数据包
1.查找数据包
在浏览器里面按F12
找到这类url
https://cmts.iqiyi.com/bullet/54/00/7973227714515400_60_2_5f3b2e24.br
2.分析弹幕链接
其中的/54/00/7973227714515400,才是有用的!!!!
爱奇艺的弹幕获取地址如下:
https://cmts.iqiyi.com/bullet/参数1_300_参数2.z
参数1是:/54/00/7973227714515400
参数2是:数字1、2、3.....
爱奇艺每5分钟会加载新的弹幕,每一集约是46分钟,46除以5向上取整就是10
因此弹幕的链接如下:
https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_1.z
https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_2.z
https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_3.z
......
https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_10.z
3.解码二进制数据包
通过弹幕链接下载的弹幕包是以z为后缀格式的文件,需要进行解码!
def zipdecode(bulletold):
'对zip压缩的二进制内容解码成文本'
decode = zlib.decompress(bytearray(bulletold), 15 + 32).decode('utf-8')
return decode
解码之后将数据保存成xml格式
# 把编码好的文件分别写入个xml文件中(类似于txt文件),方便后边取数据
with open('./lyc/zx' + str(x) + '.xml', 'a+', encoding='utf-8') as f:
f.write(xml)
3
解析xml
1.提取数据
通过查看xml文件,我们需要提取的内容有1.用户id(uid)、2.评论内容(content)、3.评论点赞数(likeCount)。
#读取xml文件中的弹幕数据数据
from xml.dom.minidom import parse
import xml.dom.minidom
def xml_parse(file_name):
DOMTree = xml.dom.minidom.parse(file_name)
collection = DOMTree.documentElement
# 在集合中获取所有entry数据
entrys = collection.getElementsByTagName("entry")
print(entrys)
result = []
for entry in entrys:
uid = entry.getElementsByTagName('uid')[0]
content = entry.getElementsByTagName('content')[0]
likeCount = entry.getElementsByTagName('likeCount')[0]
print(uid.childNodes[0].data)
print(content.childNodes[0].data)
print(likeCount.childNodes[0].data)
4
保存数据
1.保存前工作
import xlwt
# 创建一个workbook 设置编码
workbook = xlwt.Workbook(encoding = 'utf-8')
# 创建一个worksheet
worksheet = workbook.add_sheet('sheet1')
# 写入excel
# 参数对应 行, 列, 值
worksheet.write(0,0, label='uid')
worksheet.write(0,1, label='content')
worksheet.write(0,2, label='likeCount')
导入xlwt库(写入csv),并定义好标题(uid、content、likeCount)
2.写入数据
for entry in entrys:
uid = entry.getElementsByTagName('uid')[0]
content = entry.getElementsByTagName('content')[0]
likeCount = entry.getElementsByTagName('likeCount')[0]
print(uid.childNodes[0].data)
print(content.childNodes[0].data)
print(likeCount.childNodes[0].data)
# 写入excel
# 参数对应 行, 列, 值
worksheet.write(count, 0, label=str(uid.childNodes[0].data))
worksheet.write(count, 1, label=str(content.childNodes[0].data))
worksheet.write(count, 2, label=str(likeCount.childNodes[0].data))
count=count+1
最后保存成弹幕数据集-李运辰.xls
for x in range(1,11):
l = xml_parse("./lyc/zx" + str(x) + ".xml")
workbook.save('弹幕数据集-李运辰.xls')
5
总结
1.通过实战案例『赘婿』,手把手实现python爬取爱奇艺弹幕。
2.python解析xml格式数据。
3.将数据写入excel。
源码:https://gitee.com/lyc96/iqiyi-bullet-screen
评论
偷偷告诉你如何一台电脑开多个微信!
大家好,我是轩辕。前几天在粉丝群里,有人问我是怎么在一台电脑上同时登录两个微信的?正好之前写过一篇文章,分析过原理,分享给没看过的小伙伴学习一下。手机端多开微信估计很多人都知道,像华为、小米等手机系统都对此做了支持,不过在运行Windows系统的电脑上怎么启动两个微信呢?其实很简单,你只需要写一个批
编程技术宇宙
0
测试新人,如何快速上手一个陌生的系统!
大家好,我是狂师!作为刚入行不久的测试新人,面对一个陌生的系统时,可能会感到有些手足无措。面对一个全新的系统系统,如何快速上手并展开有效的测试工作是一个重要的挑战。本文将探讨测试新人如何通过一系列步骤和策略,快速熟悉并掌握新系统的测试要点,从而提高测试效率和质量。本文旨在为测试新手提供一份指导,帮助
测试开发技术
0
光纤详解:光纤跳线如何分类,多向单模转换?
本文来自“光纤详解:光纤跳线如何分类,多向单模转换?”,光纤跳线作为光网络布线最基础的元件之一,被广泛应用于光纤链路的搭建中。如今,光纤制造商根据应用场景的不同推出众多类型的光纤跳线,如MPO/LC/SC/FC/ST光纤跳线,单工/双工光纤跳线,单模/多模光纤跳线等,它们之间各有特色,且不可替代。本
架构师技术联盟
0
如何计算数据中心的冷却需求?
今日分享 【导读】数据中心的冷却要求受多种因素影响,包括设备的热量输出、占地面积、设施设计和电气系统功率额定值等等……众所周知,环境因素会严重影响数据中心设备。过多的热量积聚会损坏服务器,可能导致其自动关闭。经常在高于可接受的温度下运行服务器会缩短其使用
数据中心运维管理
0
【性能监控】如何有效监测网页静态资源大小?
前言作为前端人员肯定经常遇到这样的场景:需求刚上线,产品拿着手机来找你,为什么页面打开这么慢呀,心想自己开发的时候也有注意性能问题呀,不可能会这么夸张。那没办法只能排查下是哪一块影响了页面的整体性能,打开浏览器控制台一看,页面上的这些配图每张都非常大,心想这些配图都这么大,页面怎么快,那么我们有没有
高级前端进阶
0
机房水冷空调管路应该如何安装布局?
近年来随着云计算技术的快速发展,全球数据中心开始向着巨型化的方向发展,单机柜功率密度不断提高,5KW、7KW、10KW甚至几十KW功率机柜已逐步成为常规配置。新一代数据中心更显著的表现为:规模更大、密度更高、制冷要求更高、局部过热成为常态等特点。本文就来探讨下水
数据中心运维管理
0
如何减少网页卡顿
大厂技术 高级前端 Node进阶点击上方 程序员成长指北,关注公众号回复1,加入高级Node交流群前言经常听人说,“不要阻塞主线程”,或者 “减少长耗时 ",该如何做呢?聊网站性能的文章有很多,通常为了提高 js 性能,避不开这两点:不要阻塞主线
程序员成长指北
0
如何看待研究生报考「放导师鸽子」、「录而不读」的行为?
近日,某双一流高校教授在博客晒出被学生「放鸽子」的经历。该教授称「学生在联系的时候各种甜言蜜语,山盟海誓,就差签卖身契了,一旦手握几个 offer 立马变了个人,完全不考虑给招生单位和老师带来的麻烦」,并放出两个例子在他看来,这些学生「功利、浮躁、没有诚信」。他甚至在微信设置了一个失信名单。类似「录
机器学习初学者
0