【B 站视频教程】抓取用户微博和批量抓取评论
月小水长
共 2322字,需浏览 5分钟
· 2021-10-22
点击上方 月小水长 并 设为星标,第一时间接收干货推送
如何抓取用户的所有微博,该部分代码地址在: 一个爬取用户所有微博的爬虫,还能断网续爬那种(点击直达),下面的视频详情演示了这个过程
{
"cookie": "换成你的 cookie",
"comments": [
{
"mid": "KCXTUah9W",
"uid": "2656274875",
"limit": 100000,
"decs": "吴京说神州十三号太美了"
},
{
"mid": "KCYA7jubh",
"uid": "2803301701",
"limit": 100000,
"decs": "吴京说神州十三号太美了"
}
]
}
# -*- coding: utf-8 -*-
# author: inspurer(月小水长)
# create_time: 2021/10/17 10:31
# 运行环境 Python3.6+
# github https://github.com/inspurer
# 微信公众号 月小水长
import json
import pandas as pd
limit = 10000
config_path = 'mac_comment_config.json'
data_path = './topic/小米.csv'
def drop_duplicate(path, col_index=0):
df = pd.read_csv(path)
first_column = df.columns.tolist()[col_index]
# 去除重复行数据
df.drop_duplicates(keep='first', inplace=True, subset=[first_column])
# 可能还剩下重复 header
df = df[-df[first_column].isin([first_column])]
df.to_csv(path, encoding='utf-8-sig', index=False)
drop_duplicate(data_path)
with open(config_path, 'r', encoding='utf-8-sig') as f:
config_json = json.loads(f.read())
df = pd.read_csv(data_path)
# 清楚原有的 comments 配置,如不需要可注释
config_json['comments'].clear()
for index, row in df.iterrows():
print(f'{index + 1}/{df.shape[0]}')
weibo_link = row['weibo_link']
if '?' in weibo_link:
weibo_link = weibo_link[:weibo_link.index('?')]
uid = weibo_link[weibo_link.index('com') + 4:weibo_link.rindex('/')]
mid = weibo_link[weibo_link.rindex('/') + 1:]
config_json['comments'].append({
'mid': mid,
'uid': uid,
'limit': limit,
'desc': row['user_name']
})
with open(config_path, 'w', encoding='utf-8-sig') as f:
f.write(json.dumps(config_json, indent=2, ensure_ascii=False))
评论
偷偷告诉你如何一台电脑开多个微信!
大家好,我是轩辕。前几天在粉丝群里,有人问我是怎么在一台电脑上同时登录两个微信的?正好之前写过一篇文章,分析过原理,分享给没看过的小伙伴学习一下。手机端多开微信估计很多人都知道,像华为、小米等手机系统都对此做了支持,不过在运行Windows系统的电脑上怎么启动两个微信呢?其实很简单,你只需要写一个批
编程技术宇宙
0
机械臂抓取/6D位姿估计/三维点云/缺陷检测方向交流群成立啦
点击下方卡片,关注「3D视觉工坊」公众号选择星标,干货第一时间送达添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如机械臂抓取+清华+小草莓)▲长按扫码添加助理大家好,我是小草莓!我们3D视觉工坊成立了计算机视觉各个方向的交流群,详细如下所示,欢迎添加小助理,邀请你加群!3D视觉
3D视觉工坊
0
Open-Sora全面开源升级:支持16s视频生成和720p分辨率
机器之心发布 机器之心编辑部Open-Sora 在开源社区悄悄更新了,现在单镜头支持长达16秒的视频生成,分辨率最高可达720p,并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。我们来试试效果。生成个横屏圣诞雪景,发b站再生成个竖屏,发抖音还能
机器学习算法与Python实战
0
聊一聊我最关注的9个CV、SLAM、自动驾驶和AI圈子!
随着计算机视觉(2D/3D)、SLAM、自动驾驶、AI技术的快速迭代更新,可落地的技术也成为人们争先学习的重点。这使得从业者对于最前沿技术的获取能力变得至关重要。微信公众号便是一个非常有效的前沿信息分享平台。这里给大家推荐9个最常打开的计算机视觉、自动驾驶、SLAM、机器学习和AI方向的优质公众号平
3D视觉工坊
0
文本嵌入、文本分类和语义搜索
在实践中使用大型语言模型(LLM)中,RAG 的一个关键部分是使用文本嵌入从知识库中自动检索相关信息。在这里,我将更深入地讨论文本嵌入,并分享两个简单(但功能强大)的应用:文本分类和语义搜索。ChatGPT 吸引了全世界对人工智能及其潜力的想象。ChatGPT 的聊天界面是这一影响的关键因素,它使人
大邓和他的Python
0
springboot第70集:字节跳动后端三面经,一文让你走出微服务迷雾架构周刊
创建一个使用Kubernetes (K8s) 和 Jenkins 来自动化 GitLab 前端项目打包的CI/CD流水线,需要配置多个组件。下面,我将概述一个基本的设置步骤和示例脚本,以帮助你理解如何使用这些工具整合一个自动化流程。前提条件确保你已经有:Kubernetes 集群:用于部署 Jenk
程序源代码
0
一站式解决方案:基于 Arthas 实现服务发现和权限控制
来源:juejin.cn/post/7281849496983994383👉 欢迎加入小哈的星球 ,你将获得: 专属的项目实战 / Java 学习路线 / 一对一提问 / 学习打卡 / 赠书福利全栈前后端分离博客项目 2.0 版本完结啦, 演示链接
小哈学Java
0
互联网晚报 | 大麦网已退款凤凰传奇演唱会“柱子票”;钟薛高再成被执行人;iPhone 16或取消实体音量键和电源键
大麦网回应凤凰传奇演唱会买到“柱子票”:已退票退款据报道,凤凰传奇2024巡回演唱会常州站演出结束的第二天,有网友称自己在大麦网买到“柱子票”,因为观看效果不佳,要求退款被拒。23日,记者从涉事网友处了解到,大麦方面给出了退款建议,但被其拒绝,“我希望平台退款加赔偿,并重视屡次出现的‘柱子票’问题。
产品刘
0