福利福利!20行代码教大家抓取斗鱼美女主播封面

菜鸟学Python

共 2053字,需浏览 5分钟

 ·

2021-05-12 12:48



点上方“菜鸟学Python”,选择“星标

第477篇原创干货,第一时间送达



提起斗鱼的女主播们,大家第一时间想到的应该都是貌美如花。今天小编就带领大家抓取斗鱼直播主播们的封面照片,通过他们的封面照片来寻找自己最喜欢的女主播,一起来看看吧。


01.程序讲解
今天,我们所获取的封面照片包含了三个直播的类别,分别是“娱乐天地”下的颜值、互动交友和舞蹈三个模块。

我们首先来看颜值主播板块,看一下如何获取主播们的直播封面图吧。
不同于我们之前抓取的静态页面,斗鱼网站的信息无法从网页的源代码中进行获取,而是需要我们耐心的去分析它的网页加载内容,找出我们需要的接口链接。大家需要点击键盘的F12快捷键,进入到开发者模式下,找到network选项下的XHR请求内容,如下图所示:

02.寻找接口
我们所寻找的接口内容就包含在HXR的请求当中,那我们如何找到对应的接口呢,这里我们可以通过切换不同的直播类型,来观察XHR请求内容的变化,来找到对应的接口内容,如下图所示:

通过上面的视频可以发现,当我们不断的切换不同的直播类型时,XHR请求当中会弹出名字为”1“的内容,这样我们就可以轻松的找到我们需要的内容了,如下图所示。

接下来我们就只需要用程序,模拟浏览器向这个接口发送请求,就可以获取到数据内容。
有的小伙伴按照我们上述的方法找到url请求链接,并获取到数据后,可以发现,数据返回的是json数据内容,而且数据量非常的大,没有经验的小伙伴,可能一时之间也难以从数据中获得我们想要的图片链接。如下图所示:

这个时候,就可以借助一些辅助的工具帮助我们分析数据,大家只需要将这些json数据进行复制,然后打开网址:https://www.json.cn/。将json数据复制上去,网页就会自动的帮助我们将json数据解析成方便我们观察的数据了。

通过解析后的数据,我们可以获取到很多的信息,包括主播的昵称,以及我们想要获取得到的主播的封面图片。接下来我们就可以通过程序来获取所有主播们的封面图。而针对于互动交友和舞蹈模块的主播封面图,它们的内容解析和颜值模块主播的解析是一致的。对于封面图片的url链接的获取,程序如下图所示。

程序中,分别针对于颜值、互动交友和舞蹈三个模块下的链接进行请求,并解析返回的json数据,获取主播们的昵称和封面图片的url地址,将内容保存到self.pic_urls的列表中。
获取到图片url地址后,接下来就是请求图片数据,然后保存到本地的文件夹中,程序如下图所示。

程序中,以主播的名字命名图片,然后将请求到的图片数据,写入到本地的文件夹中。最后我们来看一下获取得到的图片内容吧。



总结

以上就是小编今天带给大家的分享,大家可以获取抓取好的主播封面,每张图片都以主播的昵称进行命名,不知道大家喜欢哪个主播,欢迎在留言区吱一声哦!


如何获取源码:

在下面的公众号后台输入:小助手,找他领取。暗号:斗鱼



推荐阅读:

入门: 最全的零基础学Python的问题  | 零基础学了8个月的Python  | 实战项目 |学Python就是这条捷径


干货:爬取豆瓣短评,电影《后来的我们》 | 38年NBA最佳球员分析 |   从万众期待到口碑扑街!唐探3令人失望  | 笑看新倚天屠龙记 | 灯谜答题王 |用Python做个海量小姐姐素描图 |


趣味:弹球游戏  | 九宫格  | 漂亮的花 | 两百行Python《天天酷跑》游戏!


AI: 会做诗的机器人 | 给图片上色 | 预测收入 | 碟中谍这么火,我用机器学习做个迷你推荐系统电影


年度爆款文案


点阅读原文,领廖雪峰视频资料!

浏览 4
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报