不写一行,自动生成爬虫代码

月小水长

共 800字,需浏览 2分钟

 · 2021-09-03

点击上方 月小水长 并 设为星标,第一时间接收干货推送

这是 月小水长 的第 79 篇原创干货

目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。

从今天开始,开一个专栏,编程每日一问,如其名,旨在分享探讨编程中那些实用的技巧或知识,多短小精悍。

今天的话题是,如果不写一行代码,完成一份最小可运行性的爬虫代码。

直接举 com 微博评论爬虫这个例子,打开下面这个网址


https://weibo.com/1192329374/Knsnj9B3D


按照以下步骤来


  • Network 栏目 Filter 处输入 ’build' 过滤请求,找到评论获取的那个接口

  • 在接口上右键,Copy --> Copy as cURL(cmd)


    curl 是利用 URL 语法在命令行方式下工作的开源文件传输工具。它被广泛应用在 Unix、多种 Linux 发行版中,并且有 DOS 和 Win32、Win64 下的移植版本。
  • 打开下面这个至关重要的网站(一定要收藏)


https://curl.trillworks.com/

如下图所示


  • 选择 Python 语言,把刚才复制的 curl cmd 粘贴到左边框里,右边框就自动生成 Python 代码了。

  • 把这个代码复制到新建的 py 文件中,可以直接运行,它完成了数据的最小抓取工作,后续再进行解析即可。


流程也可以参考下面这个无声纯净版视频。



这就是今天要分享的,欢迎拍砖~

浏览 18
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报