Python3 源代码和软件 | 抖音关键词视频搜索爬虫

月小水长

共 2464字,需浏览 5分钟

 ·

2024-03-28 08:30

欢迎关注公众号「月小水长」,唯一笔者是 BuyiXiao,又名小布衣、肖不已。 

BuyiXiao,何许人也?本衡州一乡野村夫,身高八尺不足,年方二十有余;弱冠之年曾求学于潭州,为谋生计,背井离乡,远赴京畿,我本南人,不习北土,兼有故友,威逼利诱,急于星火,遂下岭南,打工未半,中道创业,所为何业?美其名曰,智能硬件;假工程师之名,行农民工之实,满腹经纶,无用书生,善于自黑,贻笑大方。 

笔者水平有限,可能暂时无法将非常干货的教程讲的不拖泥带水又不哗众取宠,公众号文章诸多遗漏或不妥之处,可以加月小水长微信「2391527690」备注「学校专业/研究方向/工作岗位」进行交流。

另外,文末点下「」和「在看」,这样每次新文章推送,就会第一时间出现在你的订阅号列表里。

今天分享的是抖音搜索爬虫的 Python3 源代码和软件,可以按照关键词采集抖音视频

目标站点是抖音的网页版本 douyin.com,接口地址如下:

https://www.douyin.com/aweme/v1/web/search/item/

单个关键词单词最多能采集到几百条视频的信息,这是接口的限制;

接口接受排序和时间两个参数,排序可以选择综合排序、最新发布和最多点赞,

而时间参数可选一天内、一周内和半年内,同样也是三种

所以对于一个关键词,可以有 3*3 种参数组合,不过很多都是重复数据,需要去重,

爬完一个关键词的所有参数组合后,我们可以设定排序为最新发布,增量爬取新发布的抖音视频。

访问接口需要配置以下参数,均可在抖音网页版登录后使用 Chrome 的 F12 工具直接获取:

1、headers 里面的 cookie

2、params 里面的 X-Bogus 和 msToken 等

params 不需要我们逆向,可以直接获取,如果对获取流程不熟悉的可以参考这一篇:Python 源代码 | 2024 版抖音评论采集爬虫

接口直接返回 json 数据,可以直接解析,通过解析响应里面的 cursor 赋值给 params 里面的 offset 参数控制翻页;

核心代码如下:

        
        while True:
    response = requests.get('https://www.douyin.com/aweme/v1/web/search/item/',
                            params=params, headers=headers)
    resp_json = response.json()
    save_data(result_file, resp_json)
    has_more = resp_json.get('has_more')
    if int(has_more) == 0:
        break
    cursor = resp_json.get('cursor')
    params['offset'] = str(cursor)
    sleep(slp_per_req)

最终数据保存在 excel 可以直接打开的 csv 文件中,包含 视频描述、发布时间、视频地址、点赞分享收藏评论数等十余个字段 ,示例数据如下:

220e5fa2e992ba1d903e83e34f149fa0.webp

完整代码已上传面包多,购买地址如下:

https://mbd.pub/o/bread/ZZqUkp1y

完整代码主要功能如下:

  • 全部输入基于 json 文件(记事本可打开)配置,无需修改代码即可运行。

  • 可采集多个关键词的视频搜索结果,字段丰富,可根据接口数据自由增删。

  • 支持多达 3*3 种的排序方式和发布时间参数组合采集,便于丰富数据。

  • 文件保存在标准格式 CSV 中,追加采集时自动清洗去重。

  • 纯 Python 源代码,主要依赖 requests + pandas 实现,相对轻量级。

  • 代码遵循 PEP8 规范,0 error 0 warning,包含爬虫请求->解析->保存三部曲,可作为基础爬虫入门实战项目学习。

同时对于没有安装 Python3 环境或者不想安装 Python3 环境的情况,同样提供了 exe 版本,配置好后双击 exe 即可运行,

exe 地址同代码地址一起获取,可点击阅读原文直达:

https://mbd.pub/o/bread/ZZqUkp1y

购买后即可下载源代码和 exe 软件~,运行时请合理设置休眠时间(默认 6s)

浏览 42
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报