【开源】微博超话相册下载及超话活跃粉丝抓取

月小水长

共 1428字,需浏览 3分钟

 ·

2022-01-02 09:29

    点击上方 月小水长 并 设为星标,第一时间接收干货推送

这是 月小水长 的第 106 篇原创干货

目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。

微博话题 Vs 微博超话

之前的微博话题爬虫

里区分了话题爬虫关键词爬虫的区别,相同点是它们的页面是一模一样的,只是文本带 ## 区别与否;而微博超话又不等同于一般的微博话题,它具有独立的页面地址和样式
一般的微博话题的地址如下:
https://s.weibo.com/weibo?q=%23%E6%9D%8E%E8%8D%A3%E6%B5%A9%23
其页面样式如下:

而微博超话的页面样式如下:

其页面地址格式如下:
https://weibo.com/p/10080868ed174b2d302045692b38756ee47f21/super_index#1640834166497
其中的数字字母 10080868ed174b2d302045692b38756ee47f21 就是这个超话的 id。可以看到页面有关注按钮,意味着超话是有粉丝的,但是新版本已经无法查看粉丝列表了,我们只能通过发的帖子或图片里找粉丝 id,暂且称之为活跃粉丝;还有一个相册 tab;本爬虫的两大目标:抓取超话活跃粉丝和下载超话相册图片

演示效果

如图所示

运行中

图片是实时下载,最后的活跃粉丝是爬完或断网出错结束时才写入 csv,运行一会儿手动断网结束,下面下载的图片及活跃粉丝


也可以参考下面的 B 站演示视频

开源代码

代码全部开源,地址如下
https://github.com/Python3Spiders/WeiboSuperSpider/blob/master/%E6%97%A0%20GUI%20%E5%8A%9F%E8%83%BD%E7%8B%AC%E7%AB%8B%E7%89%88/WeiboSuperTopicActiveUserSpider.py
可以复制到浏览器打开,也可以点击文末阅读原文直达
拿到代码后,需要替换两个参数,第一个就是 super_topic_id,即上文所说的超话 id,可以直接在浏览器地址栏复制得到;第二个是 cookie , 由于抓取的核心接口是 /p/aj/proxy,复制 cookie 需要遵循以下步骤。
1、确保已经登录了新版本 weibo.com;确保电脑关闭了 VPN
2、打开一个超话主页的相册 tab 例如,
https://weibo.com/p/10080868ed174b2d302045692b38756ee47f21/topic_album?from=page_100808&mod=TAB#place
3、下拉,复制 /p/aj/proxy 接口的 cookie;cookie 开头如下
SINAGLOBAL=*********
4、复制 cookie 时右键,点复制而不是 copy value;
5、替换 id 和 cookie,代码就能像演示效果那样 run 起来了。
开源不易,多多点赞,star github 走起来~
浏览 253
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报