爬取某音任意视频的评论并绘制跳舞词云图~

Python爬虫与数据挖掘

共 2557字,需浏览 6分钟

 ·

2022-02-22 18:37

点击上方“Python爬虫与数据挖掘”,进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

却嫌脂粉污颜色,淡扫蛾眉朝至尊。

大家好,我是志斌~


今天来跟大家分享一下如何爬取抖音视频的评论,并绘制跳舞词云。



01

页面分析



首先,我们打开网页版的抖音,在搜索栏中输入想要爬取评论的视频博主名称。


之后进入博主视频的主页。


我们随意点一个视频进去,然后下拉页面,找到评论存在的位置。


我们按下F12,打开开发者模式来搜索评论存在的网页,并观察其存储的方式。


我们发现,原来评论的数据是以XHR的方式加载的,存储方式是JSON。


02

数据采集


上面我们已经分析出来数据的存储方式和形式,那我们接下来可以开始书写程序了。


01

 绕过反爬


在书写程序之前我们要先解决一下反爬,抖音的反爬是信息校验型反爬虫,只需要登录,加上cookie即可绕过。有兴趣的读者可以读一下我的反爬专栏第一个专栏合集:反爬虫专栏写完啦~


02

 构建URL


从下图,我们发现每翻一页评论页面,cursor参数就会增加20。


03

 发送请求


我们现在可以对页面发送请求了。

import requests
for cursor in range(10):
params = (
('device_platform', 'webapp'),
('aid', '6383'),
('channel', 'channel_pc_web'),
('aweme_id', '7034396984236657923'),
('cursor', str(20+cursor*20)),
('count', '20'),
('version_code', '170400'),
('version_name', '17.4.0'),
('cookie_enabled', 'true'),
('screen_width', '1920'),
('screen_height', '1080'),
('browser_language', 'zh-CN'),
('browser_name', 'Chrome'),
('browser_version', '96.0.4664.45'),
('browser_online', 'true'),
('engine_name', 'Blink'),
('engine_version', '96.0.4664.45'),
('os_name', 'Windows'),
('os_version', '10'),
('cpu_core_num', '4'),
('device_memory', '8'),
('platform', 'PC'),
('downlink', '3.4'),
('effective_type', '4g'),
('round_trip_time', '50'),
('msToken',
'xO8ykiImW4_y1P17rjjV82tkToK8sdVUSXsck7dqlo5egXnsLielL_-gNoh0eTlNzohikTmdqccSsY3Es0-we3HmgJYX-jaWe7rO1uKCGLQSCz4tUKiWsZwpNQ=='),
('X-Bogus', 'DFSzswVuuEtANasbSiKxme9WX7j6'),
('_signature',
'_02B4Z6wo00001cGgFBAAAIDBQaLuUEhgJOnBoBCAABHQa2zGW56-brVbd8zPJMMr5zV9wMRK.Fw-baUMHl14.I7n6EC4lETZbOyGYyoi08uVzPer1kHjbwJPWfXZBARPia3I0l-u0HyASZI012'),
)

response = requests.get('https://www.douyin.com/aweme/v1/web/comment/list/', headers=headers, params=params)


04

 数据存储


r = response.json()['comments']  
for i in r:
with open('comment.txt', 'a') as f:
f.write(i['text'])


03

跳舞词云


前几天志斌学习群里的一位大佬给志斌说了一种跳舞词云,今天志斌做了一下,感觉还不错。


04

小结


1. 本文详细介绍了,如何爬取抖音视频评论并制作跳舞词云图,有兴趣的读者可以自行尝试一下。

2. 关于跳舞词云图的绘制,志斌下一篇文章会详细讲解制作方式,敬请期待。

3. params参数里面的aweme_id参数,即可爬取其他视频的评论。

4.  本文仅供学习参考,不做它用。

小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。

------------------- End -------------------

往期精彩文章推荐:

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群

万水千山总是情,点个【在看】行不行

/今日留言主题/

随便说一两句吧~

浏览 197
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报