抓取微博 10w 余转发信息，构建 N 层转发关系网络图谱-技术圈

点击上方月小水长并设为星标，第一时间接收干货推送

这是月小水长的第 104 篇原创干货

目前公众号平台改变了推送机制，点“赞”、点“在看”、添加过“星标”的同学，都会优先接收到我的文章推送，所以大家读完文章后，记得点一下“在看”和“赞”。

在不久前发布的微博转发爬虫一文中：

2021 微博最新转发爬虫发布

分享了抓取微博的转发具体信息的爬虫 pyd 文件。但是单条微博最多只能抓到 1w 左右的转发，近日得空升级更新了下，以敲钟人李文亮英雄的最后一条微博为例子，实际抓到 10w+条抓发时仍可继续抓取，理论上可以全部抓取。更新的文件依然在上文链接中获取。

新的文件除了抓发数量上限有所升级外，还对微博 id 的格式做了自动转化处理，比如本例中的微博链接可以是：

https://weibo.com/1139098205/Is9M7taaY

数字 1139098205 是用户 id，最后斜杠后面的 Is9M7taaY 才是微博 id。

链接也可以是:

https://m.weibo.cn/detail/4467107636950632

上面的 4467107636950632 也是微博 id。它们可以通过转发爬虫的链接同目录下的文件 parseMid 互相转发，不过还是不方面，这次的爬虫文件，外面无论是指定 id 为 4467107636950632 还是 Is9M7taaY ，内部都会自动转化。

该文件不需要 json 配置，只需新建 py 按以下代码格式使用即可(下述代码左右滑动观看)。

from NewSuperWeiboForwardSpider import NewSuperWeiboForwardif __name__ == '__main__':    # cookie 要换的，参考B站视频 BV1F44y1i7dq    forwardSpider = NewSuperWeiboForward(mid='Is9M7taaY',    start_page=1,    limit=1000000,    cookie='eat cookie')    forwardSpider.crawl()