2021 微博爬虫更新及使用指南

月小水长

共 1968字,需浏览 4分钟

 ·

2021-09-03 16:10

   点击上方 月小水长 并 设为星标,第一时间接收干货推送

这是 月小水长 的第 78 篇原创干货

目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”

包含话题,评论,用户等的 微博爬虫点击此处蓝字进入系列爬虫合集页,可订阅更新)已经更新两年有余了,2021 新版微博爬虫也已经更新一月有余,并新加了转发这个 Feature,在此期间收到不少使用咨询和 bug 反馈;bug 已经修复,使用统一在此文回复。

在使用之前,建议使用 3.6.6 x64 位+ Pycharm IDE。

为什么必须是 3.6.6 x64 位呢,这是因为分发的 pyd 文件在我的电脑上是由 Python 3.6.6 生成的,如果是直接分发 py 文件,则没有这个限制,我也是后来不断有读者反馈才了解到这个 BUG?想着干脆直接开源出来就得了,但是这对于之前已经购买过付费文章的同学是不公平的,所以不会开源;后续的代码尽可能都开源,并且应该不会再写付费文章了


    为什么强调使用 Pycharm,因为保存的 csv 文件如果在外面比如 excel 打开,则由于会有 win/mac 系统的编码方式和我的程序里面的 utf-8-sig 不一致导致的崩溃或乱码错误(感兴趣的同学可以了解相关,这里我做黑盒处理了),最佳方式是自始至终只在 Pycharm 打开 csv 文件,同时 Pycharm 安装个 csv plugin 方便浏览。永远不要在 excel 打开,除非你确保程序不会再读取这份 csv 文件中,因为话题爬取可以中断继续的缘故,所以同一个话题 csv 文件是追加写的。如果不幸用 excel 打开并保存了修改,有一个补救措施是再用记事本打开这份 csv 另存为同名 csv,编码方式使用 utf-8 带 BOM 头,替换之;或者删除 csv 文件重来(希望这段是废话,遇到问题再来看吧)。


关于 cookie 的站点选择,记住,weibo.com 是独立的,m.weibo 和 weibo.cn 这两个可以共用

话题爬虫

首先是微博话题爬虫的更新,github 上的 2020 版代码已经停止更新了,所以就有了 2021 新版微博话题爬虫发布;今天发布的新加了微博内容去重及去掉非相关微博(微博搜索可能有广告嵌入)、到时自动停止(这应该是个 bug,第一次发布的版本的不会停止),同时在配置文件中,新加了一个字段 only_origin ,用以控制是否只抓取原创微博,默认是 false,改为 true 即是只抓取原创微博。

{  "cookie": "这里很长很长的",  "keyword": "五胡十六国",  "start_time": "2021-04-01-9",  "end_time": "2021-04-08-16",  "only_origin": false}

新发布的版本获取口令同 2021 新版微博话题爬虫发布。这篇文章谈到怎么获取 cookie 是一笔带过,因此有不少读者问怎么获取这个 cookie,确保登录了 weibo.com,在浏览器打开下面这个网址,第一个 weibo 请求的 cookie 就是(大佬自行跳过)。


https://s.weibo.com/weibo?q=%E8%B0%A2%E5%A8%9C%E4%BE%84%E5%AD%90%E8%80%83%E4%B8%8A%E6%B8%85%E5%8D%8E&Refer=top


评论爬虫


同时 2021 新版微博评论及其子评论爬虫发布 微博评论继续更新,上一次更新发布了 Mac 版本,这里强调下, Win 系统也能使用这个 Mac 版本。同时,本次更新优化了逻辑,单条微博的评论上限达到了几千到一万之多,获取方式依然在 2021 新版微博评论及其子评论爬虫发布


用户爬虫


最后是用户爬虫,高兴的是,依然能使用 20 年版本 cn 站的,就不多说了。一个爬取用户所有微博的爬虫,还能断网续爬那种


ps,打个小广告,小店开业,如有打扰,请无视。



有问题欢迎留言,下一个计划是批量抓取的微博用户个人信息爬虫。

浏览 174
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报