点击上方 月小水长 并 设为星标,第一时间接收干货推送
目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。
2021 新版微博爬虫一发布,就有位读者后台留言说有下面这样的 BUG,而且反馈的人越来越多,恰巧今天休息,修复了下这个问题。
我研究了下,发现这个问题不用修改代码就可以解决。
举个例子,假如要爬北京疫情相关的微博,在 json 文件中设置 keyword 为 北京疫情,那么其实爬到的微博不一定正文有 北京疫情 这连起来的四个字,可能 北京 疫情两个词是分开的。如下图。
这是一部分看起来不相关的数据,其实还是有一定借鉴价值的,在上个版本由于过滤了正文不包括 北京疫情 这四个连字的微博,所以爬到的数据很少,这个版本不再过滤这样的数据。假如要只爬包含 北京疫情 这四个连字的微博,该怎么做,在 json 中把 keyword 设置为 #北京疫情# 即可。但是这样的数据会少很多,因为它只包括 #北京疫情# 这样的超话微博,不包含两两分开的,也不包括 北京疫情 这样的没有#符号单纯四字连字微博正文。最后,微博搜索结果为空时,爬虫会错误地将一些推荐地关键词无关微博也包含进来。本次也针对此做了优化,过滤掉这样的微博。还是去2021新版微博话题发布那篇推送中获取爬虫文件。