新版话题爬虫新增位置信息

月小水长

共 831字,需浏览 2分钟

 ·

2021-10-09 14:10

   点击上方 月小水长 并 设为星标,第一时间接收干货推送

这是 月小水长 的第 86 篇原创干货

目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。

前阵子发布了微博位置爬虫,作用是按照某一个位置,比如北京或者北京海淀区或者北京海淀区中关村,搜索保存定位聚合到此的微博,详情可见 微博位置爬虫发布(点击直达)



这阵子发现新版微博话题爬虫,里面缺少了位置信息,于是在里面加上了两个字段,location_name、location_url,前者是地名,后者是该地名对应的位置聚合页 url,由于是按照话题聚合而不是位置聚合的,而且很多微博并没有位置信息,所以这两个字段分布比较稀疏,且各不相同。可以去 2021 新版微博话题爬虫发布(点击直达)按照口令获取最新的 pyd 文件。

最后,说下新版话题评论爬虫,本次修复了一些 bug,比如去重时如果没有评论会报 FileNotFound 错误,可以去 2021 新版微博评论及其子评论爬虫发布(点击直达)获取评论 pyd 文件的百度网盘链接,这里强调下,无论是 windows 还是 mac 系统,均优先使用NewSuperWeiboChildCommentsForMac 这个评论爬虫文件,修改 mac_comment_config.json 文件,如何替换里面的 cookie?可以参考 2021 微博新版评论爬虫更新 这里面的配置,然后运行 test.py 即可,它爬的不只是子评论,根评论也爬!

最后预告一下会发布微博爬虫新的系列,至于具体是什么,留点悬念,敬请期待~

浏览 9
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报