中断可继续,10w+,无 cookie 微博评论抓取网站上线
共 1181字,需浏览 3分钟
·
2022-06-24 11:38
点击上方 月小水长 并 设为星标,第一时间接收干货推送
补齐无 cookie 爬虫系列的最后一块拼图:无 cookie 评论爬虫今日上线。虽然是 无 cookie 系列,但是它和无 cookie 话题等相比,限制更少,更为强大。欲知强在何处,且听我一一道来。
无 cookie
不需要 cookie或者说对于使用者来说,感受不到 cookie 的存在,即可 run,这是最基本的特征。
评论上限可达 10w+
此处抓取的评论不是同步从 weibo.com 抓取的,因此同一条微博的,抓取的结果和 weibo.com 看到的评论有时差,笔者觉得无伤大雅。
和微博话题只能最近几十页的数据相比,无 cookie 评论的上限大概在 10w+ 这个量级,实测最多抓到 30w。能抓到 10w+,不是说网页上显示有 10w 条就能抓到 10w 条,
一来博主可能精选评论,二来微博会过滤,评论的数量显示只会往多了显示;除开这些原因,显示 100w+ 评论大概率能抓到 10w+。
字段丰富
抓取保存的 csv 文件包括评论时间、评论文本、评论 ID、评论点赞数等评论本身信息和评论用户名、评论用户关注数、粉丝数、性别、所在地、是否认证等评论用户信息。
可以从上次中断的继续抓取
字面意思,比如这次抓到 1w 条停了,下次可以继续上次停的地方继续抓取,这是自动配置的,使用者不用设置即可自动继续。一次抓取结束可以下载当前的结果文件。
共享数据集
其他人抓取好一个微博 30w 的评论数据集,如果你有同样的需求,输入微博 id 后,无需抓取,可以直接下载。微博 id 可以是纯数字 id,也可以是数字字母混合 id,它会自动转化成纯数字 id。最后的结果文件也是按照 {数字id}.csv 这样的格式命名的。
使用指南
网站全量开启 https 安全访问,地址为:
https://weibo-comment-crawl.buyixiao.xyz/
网站对所有人开放,但执行抓取需要密钥,密钥获取地址
https://afdian.net/p/4c1ad92aeaf311ec971752540025c377
为了服务器和网站的持续稳健运行,密钥设置为付费获取,一旦泄露随时可能更新。本网站适合长期有大量评论抓取需求或者特定字段要求的读者使用,如果至是一次性使用,建议使用 新增 ip 属地,抓得更多,微博超级评论爬虫大更新。它是有 cookie 的,抓到的评论基本和 weibo.com 看到的保持一致。