新版微博话题爬虫总是爬一些无关数据的原因
点击上方 月小水长 并 设为星标,第一时间接收干货推送
2021 新版微博爬虫一发布,就有位读者后台留言说有下面这样的 BUG,而且反馈的人越来越多,恰巧今天休息,修复了下这个问题。
我研究了下,发现这个问题不用修改代码就可以解决。
举个例子,假如要爬北京疫情相关的微博,在 json 文件中设置 keyword 为 北京疫情,那么其实爬到的微博不一定正文有 北京疫情 这连起来的四个字,可能 北京 疫情两个词是分开的。如下图。
评论
2021 新版微博爬虫一发布,就有位读者后台留言说有下面这样的 BUG,而且反馈的人越来越多,恰巧今天休息,修复了下这个问题。
我研究了下,发现这个问题不用修改代码就可以解决。
举个例子,假如要爬北京疫情相关的微博,在 json 文件中设置 keyword 为 北京疫情,那么其实爬到的微博不一定正文有 北京疫情 这连起来的四个字,可能 北京 疫情两个词是分开的。如下图。