新版微博话题爬虫总是爬一些无关数据的原因

月小水长

共 803字,需浏览 2分钟

 ·

2021-09-23 18:09

    点击上方 月小水长 并 设为星标,第一时间接收干货推送

这是 月小水长 的第 84 篇原创干货

目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。


2021 新版微博爬虫一发布,就有位读者后台留言说有下面这样的 BUG,而且反馈的人越来越多,恰巧今天休息,修复了下这个问题。



我研究了下,发现这个问题不用修改代码就可以解决。

举个例子,假如要爬北京疫情相关的微博,在 json 文件中设置 keyword 为 北京疫情,那么其实爬到的微博不一定正文有 北京疫情连起来的四个字,可能 北京 疫情两个词是分开的。如下图。



这是一部分看起来不相关的数据,其实还是有一定借鉴价值的,在上个版本由于过滤了正文不包括 北京疫情 这四个连字的微博,所以爬到的数据很少,这个版本不再过滤这样的数据。
假如要只爬包含 北京疫情 这四个连字的微博,该怎么做,在 json 中把 keyword 设置为 #北京疫情# 即可。但是这样的数据会少很多,因为它只包括 #北京疫情# 这样的超话微博,不包含两两分开的,也不包括 北京疫情 这样的没有#符号单纯四字连字微博正文。
说起来比较绕,我还是做个表格,比较清晰。


最后,微博搜索结果为空时,爬虫会错误地将一些推荐地关键词无关微博也包含进来。


本次也针对此做了优化,过滤掉这样的微博。还是去2021新版微博话题发布那篇推送中获取爬虫文件。
祝大家中秋快乐~
浏览 51
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报