新浪微博系列爬虫的一些使用建议
月小水长
共 669字,需浏览 2分钟
·
2021-03-11 21:16
点击上方 月小水长 并 设为星标,第一时间接收干货推送
exe 早就不维护了,在 微博话题爬虫更新:突破 50 页限制 一文中,已经说过不再继续维护 exe 版本了,后面自然而然就失效了;一方面 mac 上无效使用 exe,另一方面 gui 维护成本比较高,ui 操作逻辑需要随爬虫逻辑的改变而改变。所以,exe 版本用不了了。
运行报错,KeyError: 'servertime',这个错误是出现在微博超级评论爬虫里的,原因是因为自动登录的逻辑已经失效了,强制扫码登陆了,可以使用 cookie 版本的微博评论爬虫。
微博用户爬虫,微博话题爬虫依然是可以用的,并且话题爬虫是依然可以支持小时级别的搜索抓取的,至于为什么抓不到,大概率是因为 cookie 复制错了,必须是要 cn 站的 login.cn 这个接口登录后的,以及可能是网络运营商所限,多切换几个热点试试。
为什么微博话题显示有几万条,实际抓到的只有几千甚至更少?我提出两个可能的原因,第一是可能是这几万条有水分,第二是两者的统计口径不一样,话题爬虫其实是按照关键词搜索的,暂无法知道微博的统计口径。
关于这个爬虫,还有哪些疑问,可在下方留言,或点击阅读原文,在 github 上提 issue
评论