【B 站视频教程】抓取用户微博和批量抓取评论-技术圈

点击上方月小水长并设为星标，第一时间接收干货推送

这是月小水长的第 90 篇原创干货

目前公众号平台改变了推送机制，点“赞”、点“在看”、添加过“星标”的同学，都会优先接收到我的文章推送，所以大家读完文章后，记得点一下“在看”和“赞”。

如何抓取用户的所有微博，该部分代码地址在： 一个爬取用户所有微博的爬虫，还能断网续爬那种（点击直达），下面的视频详情演示了这个过程

如何抓取一条甚至多条微博的评论呢？代码地址在：2021 新版微博评论及其子评论爬虫发布（点击直达），具体操作可参考下面的视频

批量抓取微博评论，需要配置的一个文件是 mac_comment_config.json，其格式如下：

{  "cookie": "换成你的 cookie",  "comments": [    {      "mid": "KCXTUah9W",      "uid": "2656274875",      "limit": 100000,      "decs": "吴京说神州十三号太美了"    },    {      "mid": "KCYA7jubh",      "uid": "2803301701",      "limit": 100000,      "decs": "吴京说神州十三号太美了"    }  ]}

以上的配置可以抓取两条微博的评论，有个问题是，如果有很多很多个微博需要爬评论，难道需要一个个输入 mid 和 uid 吗？考虑到这个问题，我特意写了个脚本，比如我们爬完话题爬虫： 2021 新版微博话题爬虫发布 后，需要获取该话题下所有微博的评论，我们可以使用如下的 py 脚本代码自动构建视频中抓取评论所需要的 json 配置文件

# -*- coding: utf-8 -*-# author:           inspurer(月小水长)# create_time:      2021/10/17 10:31# 运行环境           Python3.6+# github            https://github.com/inspurer# 微信公众号         月小水长
import json
import pandas as pd
limit = 10000
config_path = 'mac_comment_config.json'
data_path = './topic/小米.csv'

def drop_duplicate(path, col_index=0):    df = pd.read_csv(path)    first_column = df.columns.tolist()[col_index]    # 去除重复行数据    df.drop_duplicates(keep='first', inplace=True, subset=[first_column])    # 可能还剩下重复 header    df = df[-df[first_column].isin([first_column])]    df.to_csv(path, encoding='utf-8-sig', index=False)

drop_duplicate(data_path)
with open(config_path, 'r', encoding='utf-8-sig') as f:    config_json = json.loads(f.read())
df = pd.read_csv(data_path)
# 清楚原有的 comments 配置，如不需要可注释config_json['comments'].clear()
for index, row in df.iterrows():    print(f'{index + 1}/{df.shape[0]}')    weibo_link = row['weibo_link']    if '?' in weibo_link:        weibo_link = weibo_link[:weibo_link.index('?')]    uid = weibo_link[weibo_link.index('com') + 4:weibo_link.rindex('/')]    mid = weibo_link[weibo_link.rindex('/') + 1:]    config_json['comments'].append({        'mid': mid,        'uid': uid,        'limit': limit,        'desc': row['user_name']    })
with open(config_path, 'w', encoding='utf-8-sig') as f:    f.write(json.dumps(config_json, indent=2, ensure_ascii=False))

构建一次即可，如果抓取过程出错，可以把已经抓取过评论的的微博从 json 配置文件中删除，下次就可以从当前微博继续抓取了。

点击 阅读原文 可以直达视频地址~

【B 站视频教程】抓取用户微博和批量抓取评论

点击上方 月小水长 并 设为星标，第一时间接收干货推送

点击上方月小水长并设为星标，第一时间接收干货推送