新版话题爬虫新增位置信息
月小水长
共 831字,需浏览 2分钟
·
2021-10-09 14:10
点击上方 月小水长 并 设为星标,第一时间接收干货推送
前阵子发布了微博位置爬虫,作用是按照某一个位置,比如北京或者北京海淀区或者北京海淀区中关村,搜索保存定位聚合到此的微博,详情可见 微博位置爬虫发布(点击直达)。
这阵子发现新版微博话题爬虫,里面缺少了位置信息,于是在里面加上了两个字段,location_name、location_url,前者是地名,后者是该地名对应的位置聚合页 url,由于是按照话题聚合而不是位置聚合的,而且很多微博并没有位置信息,所以这两个字段分布比较稀疏,且各不相同。可以去 2021 新版微博话题爬虫发布(点击直达)按照口令获取最新的 pyd 文件。
最后,说下新版话题评论爬虫,本次修复了一些 bug,比如去重时如果没有评论会报 FileNotFound 错误,可以去 2021 新版微博评论及其子评论爬虫发布(点击直达)获取评论 pyd 文件的百度网盘链接,这里强调下,无论是 windows 还是 mac 系统,均优先使用NewSuperWeiboChildCommentsForMac 这个评论爬虫文件,修改 mac_comment_config.json 文件,如何替换里面的 cookie?可以参考 2021 微博新版评论爬虫更新 这里面的配置,然后运行 test.py 即可,它爬的不只是子评论,根评论也爬!
最后预告一下会发布微博爬虫新的系列,至于具体是什么,留点悬念,敬请期待~
评论