可按关键词和时间段搜索,微博用户爬虫上新

共 772字,需浏览 2分钟

 ·

2022-07-05 11:36

    点击上方 月小水长 并 设为星标,第一时间接收干货推送

这是 月小水长 的第 133 篇原创干货

目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。

抓取一个用户发布的微博可能会有这样一个需求,只需要特定时间段内的这个用户发布的微博,或者只需要包含指定关键词的微博,又或者是指定时间段内同时包含指定关键词的微博。这可能很简单,直接把全部的微博抓下来再本地处理过滤不就可以吗。

但是,一个微博用户可能发布了十多万条微博,但是我们需要的目标微博只要十多条,在不考虑全部抓下来的难度的前提下,10 之于 100000,得做多少无用功。

有痛点就要解决,于是乎,微博超级用户自助抓取网站上线了。

可以按照关键词、时间线筛选微博,并抓取保存

抓取保存的 csv 包含十余字段,主要有微博 id、微博链接、图片链接、微博内容、发布工具、转评赞数量等字段。抓取结束后会出现下载 csv 的按钮。

网站全量开启 https 安全访问,地址为:

https://weibo-super-user-spider.buyixiao.xyz/

网站对所有人开放,但执行抓取需要密钥,密钥获取地址

https://afdian.net/p/4c1ad92aeaf311ec971752540025c377

为了服务器和网站的持续稳健运行,密钥设置为付费获取,本爬虫的密钥和 中断可继续,10w+,无 cookie 微博评论抓取网站上线 中的密钥是一样的,上次获取过的的同学可以直接获取使用,一旦泄露随时可能更新。点击阅读原文直达网址。

浏览 49
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报