这可能是你见过最全的网络爬虫工具库集合!

印象Python

共 1749字,需浏览 4分钟

 ·

2022-03-09 16:39

ab1ada7bc312b0c60afacb91d4c14d36.webp


文 | 酷头
来源:印象python「ID: python_logic」
嗨!大家好,我是酷头
欢迎来到学习python的宝藏基地~~~
c2eda137110810d806cb2c2c770165ad.webp
长按下方二维码可以添加我为好友哦

f655c75d91e330fd53ce562bd7b6c1b7.webp

经常逛 GitHub 的同学可能会听说过大名鼎鼎的 awesome 仓库,没错,就是这个:https://github.com/sindresorhus/awesome

caeccd8b3a6c73c100f2ee03e999957e.webp

这个库可谓是一个极大的宝藏,囊括了有关技术的几乎所有领域的资料、工具和库,比如平台、编程语言、前端开发、后端开发、大数据、数据科学、数据库、安全、硬件、DevOps 等等等,几乎想到的全都有。

就拿 Platform 这个平台这个分支来讲吧,里面又有进一步的细分,比如 iOS、Android、Linux、macOS、JVM 等等,然后每一个又是一个新的以 awesome 开头的仓库,比如:

  • awesome-linux:https://github.com/inputsh/awesome-linux
  • awesome-android:https://github.com/JStumpp/awesome-android
  • awesome-macOS:https://github.com/iCHAIT/awesome-macOS
a632f3203be9545589c51999fc7b2a18.webp

是的,每一个子仓库里面都收集了关于这个领域的几乎所有的资料、工具、库等等。

也就是说,awesome (https://github.com/sindresorhus/awesome)这个库是,然后衍生出来了各个领域和方向的 awesome 子仓库来收集对应领域的资料、工具库,由全世界的程序员一起维护和贡献。

真的全是宝藏!

有朋友这会就好奇了,有没有有关爬虫的 awesome 库呢?有!

awesome-web-scraping

就是这个:https://github.com/lorien/awesome-web-scraping

这里面收集了有关网络爬虫的各种资料、工具库的列表,不仅仅是 Python,还有 Go、Ruby、JavaScript、PHP 等等,首页如下:

37c07e34a61a47c26e4290511d4e8de0.webp

另外还有一些爬虫商业服务、控制台工具、无头浏览器、验证码破解网站等等。

比如我们看看 Python 的,里面就收集了各种请求库、解析库、数据处理库等等:

58bf8729957a2c8880fbd64a2a6de8d0.webp9dfe5a491c38677447e233c80ddb8796.webpa57cb93edce320032abcbf4ea5ac08bc.webp

这里就不一一放了,是不是又大又全?

awesome-web-scraping 中文版

是的,awesome 系列仓库还有更小的分支,那就是根据语言划分的分支,比如说中文版、日文版、俄文版等等,比如说 awesome-windows 上面就分了中文:https://github.com/Awesome-Windows/Awesome

56b2c26f462fcb58906dc3314a980c82.webp

其他的很多 awesome 仓库也有中文,比如:

  • awesome-anrdoid 中文:https://github.com/jobbole/awesome-android-cn
  • awesome-ios 中文:https://github.com/jobbole/awesome-ios-cn

OK,那我做了件什么事呢?

我也为 awesome-web-scraping 创建了一个中文版本的仓库:https://github.com/Germey/AwesomeWebScraping

其实就是对原仓库进行了一次翻译,也是区分了各种语言,比如 Python、JavaScript 等各个语言的工具库全在这里面了!另外每个语言都有很多分类,像请求库、爬取框架、解析库、自然语言处理、消息队列等等,都在这里了:

5e7fbd05d2c05d974023cd83adfb6eec.webp

比如部分的内容大致如下:

b3b5248e1f05a89cdfc1ba30ebc2b809.webp

b88d511599fb54e6ec8ef1072b6b7122.webp

70928cad77236c14a964b5c26157a9f0.webp

总之,这个库的目标就是做一个 GitHub 上收集有关网络爬虫工具库的最全的中文版集合!

当然现在我还在翻译和优化过程中,部分内容可能不是完全通顺,还会继续更新和完善的。

大家如果发现有遗漏的库,想往里面加的话也欢迎提 PR,我会一并收纳和整理,一起让它完善起来吧!

往期精彩回顾 全国结婚率连续5年下降,这届年轻人,为什么不敢结婚?最详细Python打包exe教程,并修改图标,30秒搞定!简单实用,Python代码调试利器~抖音上好看的跳舞小姐姐,Python都给你都下载好了!爬虫实战:英雄联盟手游能“干掉”王者荣耀?微博4.3亿网友吵翻了……




8069812f4670be63585b0ecc256cc3e8.webp

分享

fc993b4db0080207006ca6c5710cf045.webp

收藏

a0707c082944b12e4b69e0c798a3bcc8.webp

点赞

73bc9df5f03f258aea88bb70721883f6.webp

在看

浏览 39
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报