2021 微博爬虫更新及使用指南-技术圈

点击上方月小水长并设为星标，第一时间接收干货推送

这是月小水长的第 78 篇原创干货

目前公众号平台改变了推送机制，点“赞”、点“在看”、添加过“星标”的同学，都会优先接收到我的文章推送，所以大家读完文章后，记得点一下“在看”和“赞”。

包含话题，评论，用户等的 微博爬虫（点击此处蓝字进入系列爬虫合集页，可订阅更新）已经更新两年有余了，2021 新版微博爬虫也已经更新一月有余，并新加了转发这个 Feature，在此期间收到不少使用咨询和 bug 反馈；bug 已经修复，使用统一在此文回复。

在使用之前，建议使用 3.6.6 x64 位+ Pycharm IDE。

为什么必须是 3.6.6 x64 位呢，这是因为分发的 pyd 文件在我的电脑上是由 Python 3.6.6 生成的，如果是直接分发 py 文件，则没有这个限制，我也是后来不断有读者反馈才了解到这个 BUG？想着干脆直接开源出来就得了，但是这对于之前已经购买过付费文章的同学是不公平的，所以不会开源；后续的代码尽可能都开源，并且应该不会再写付费文章了。

为什么强调使用 Pycharm，因为保存的 csv 文件如果在外面比如 excel 打开，则由于会有 win/mac 系统的编码方式和我的程序里面的 utf-8-sig 不一致导致的崩溃或乱码错误（感兴趣的同学可以了解相关，这里我做黑盒处理了），最佳方式是自始至终只在 Pycharm 打开 csv 文件，同时 Pycharm 安装个 csv plugin 方便浏览。永远不要在 excel 打开，除非你确保程序不会再读取这份 csv 文件中，因为话题爬取可以中断继续的缘故，所以同一个话题 csv 文件是追加写的。如果不幸用 excel 打开并保存了修改，有一个补救措施是再用记事本打开这份 csv 另存为同名 csv，编码方式使用 utf-8 带 BOM 头，替换之；或者删除 csv 文件重来（希望这段是废话，遇到问题再来看吧）。

关于 cookie 的站点选择，记住，weibo.com 是独立的，m.weibo 和 weibo.cn 这两个可以共用。

话题爬虫

首先是微博话题爬虫的更新，github 上的 2020 版代码已经停止更新了，所以就有了 2021 新版微博话题爬虫发布；今天发布的新加了微博内容去重及去掉非相关微博（微博搜索可能有广告嵌入）、到时自动停止（这应该是个 bug，第一次发布的版本的不会停止），同时在配置文件中，新加了一个字段 only_origin ，用以控制是否只抓取原创微博，默认是 false，改为 true 即是只抓取原创微博。

{  "cookie": "这里很长很长的",  "keyword": "五胡十六国",  "start_time": "2021-04-01-9",  "end_time": "2021-04-08-16",  "only_origin": false}

新发布的版本获取口令同 2021 新版微博话题爬虫发布。这篇文章谈到怎么获取 cookie 是一笔带过，因此有不少读者问怎么获取这个 cookie，确保登录了 weibo.com，在浏览器打开下面这个网址，第一个 weibo 请求的 cookie 就是（大佬自行跳过）。

https://s.weibo.com/weibo?q=%E8%B0%A2%E5%A8%9C%E4%BE%84%E5%AD%90%E8%80%83%E4%B8%8A%E6%B8%85%E5%8D%8E&Refer=top

评论爬虫

同时 2021 新版微博评论及其子评论爬虫发布微博评论继续更新，上一次更新发布了 Mac 版本，这里强调下， Win 系统也能使用这个 Mac 版本。同时，本次更新优化了逻辑，单条微博的评论上限达到了几千到一万之多，获取方式依然在 2021 新版微博评论及其子评论爬虫发布。

用户爬虫

最后是用户爬虫，高兴的是，依然能使用 20 年版本 cn 站的，就不多说了。一个爬取用户所有微博的爬虫，还能断网续爬那种。

ps，打个小广告，小店开业，如有打扰，请无视。

有问题欢迎留言，下一个计划是批量抓取的微博用户个人信息爬虫。

2021 微博爬虫更新及使用指南

点击上方 月小水长 并 设为星标，第一时间接收干货推送

点击上方月小水长并设为星标，第一时间接收干货推送