2021 微博爬虫更新及使用指南
共 1968字,需浏览 4分钟
·
2021-09-03 16:10
点击上方 月小水长 并 设为星标,第一时间接收干货推送
在使用之前,建议使用 3.6.6 x64 位+ Pycharm IDE。
为什么必须是 3.6.6 x64 位呢,这是因为分发的 pyd 文件在我的电脑上是由 Python 3.6.6 生成的,如果是直接分发 py 文件,则没有这个限制,我也是后来不断有读者反馈才了解到这个 BUG?想着干脆直接开源出来就得了,但是这对于之前已经购买过付费文章的同学是不公平的,所以不会开源;后续的代码尽可能都开源,并且应该不会再写付费文章了。
为什么强调使用 Pycharm,因为保存的 csv 文件如果在外面比如 excel 打开,则由于会有 win/mac 系统的编码方式和我的程序里面的 utf-8-sig 不一致导致的崩溃或乱码错误(感兴趣的同学可以了解相关,这里我做黑盒处理了),最佳方式是自始至终只在 Pycharm 打开 csv 文件,同时 Pycharm 安装个 csv plugin 方便浏览。永远不要在 excel 打开,除非你确保程序不会再读取这份 csv 文件中,因为话题爬取可以中断继续的缘故,所以同一个话题 csv 文件是追加写的。如果不幸用 excel 打开并保存了修改,有一个补救措施是再用记事本打开这份 csv 另存为同名 csv,编码方式使用 utf-8 带 BOM 头,替换之;或者删除 csv 文件重来(希望这段是废话,遇到问题再来看吧)。
首先是微博话题爬虫的更新,github 上的 2020 版代码已经停止更新了,所以就有了 2021 新版微博话题爬虫发布;今天发布的新加了微博内容去重及去掉非相关微博(微博搜索可能有广告嵌入)、到时自动停止(这应该是个 bug,第一次发布的版本的不会停止),同时在配置文件中,新加了一个字段 only_origin ,用以控制是否只抓取原创微博,默认是 false,改为 true 即是只抓取原创微博。
{
"cookie": "这里很长很长的",
"keyword": "五胡十六国",
"start_time": "2021-04-01-9",
"end_time": "2021-04-08-16",
"only_origin": false
}
新发布的版本获取口令同 2021 新版微博话题爬虫发布。这篇文章谈到怎么获取 cookie 是一笔带过,因此有不少读者问怎么获取这个 cookie,确保登录了 weibo.com,在浏览器打开下面这个网址,第一个 weibo 请求的 cookie 就是(大佬自行跳过)。
https://s.weibo.com/weibo?q=%E8%B0%A2%E5%A8%9C%E4%BE%84%E5%AD%90%E8%80%83%E4%B8%8A%E6%B8%85%E5%8D%8E&Refer=top
同时 2021 新版微博评论及其子评论爬虫发布 微博评论继续更新,上一次更新发布了 Mac 版本,这里强调下, Win 系统也能使用这个 Mac 版本。同时,本次更新优化了逻辑,单条微博的评论上限达到了几千到一万之多,获取方式依然在 2021 新版微博评论及其子评论爬虫发布。
最后是用户爬虫,高兴的是,依然能使用 20 年版本 cn 站的,就不多说了。一个爬取用户所有微博的爬虫,还能断网续爬那种。
ps,打个小广告,小店开业,如有打扰,请无视。
有问题欢迎留言,下一个计划是批量抓取的微博用户个人信息爬虫。