这可能是你见过最全的网络爬虫工具库集合!
共 1749字,需浏览 4分钟
·
2022-03-09 16:39
来源:印象python「ID: python_logic」
嗨!大家好,我是酷头
欢迎来到学习python的宝藏基地~~~
长按下方二维码可以添加我为好友哦
经常逛 GitHub 的同学可能会听说过大名鼎鼎的 awesome 仓库,没错,就是这个:https://github.com/sindresorhus/awesome。
这个库可谓是一个极大的宝藏,囊括了有关技术的几乎所有领域的资料、工具和库,比如平台、编程语言、前端开发、后端开发、大数据、数据科学、数据库、安全、硬件、DevOps 等等等,几乎想到的全都有。
就拿 Platform 这个平台这个分支来讲吧,里面又有进一步的细分,比如 iOS、Android、Linux、macOS、JVM 等等,然后每一个又是一个新的以 awesome 开头的仓库,比如:
- awesome-linux:https://github.com/inputsh/awesome-linux
- awesome-android:https://github.com/JStumpp/awesome-android
- awesome-macOS:https://github.com/iCHAIT/awesome-macOS
是的,每一个子仓库里面都收集了关于这个领域的几乎所有的资料、工具、库等等。
也就是说,awesome (https://github.com/sindresorhus/awesome)这个库是根,然后衍生出来了各个领域和方向的 awesome 子仓库来收集对应领域的资料、工具库,由全世界的程序员一起维护和贡献。
真的全是宝藏!
有朋友这会就好奇了,有没有有关爬虫的 awesome 库呢?有!
awesome-web-scraping
就是这个:https://github.com/lorien/awesome-web-scraping
这里面收集了有关网络爬虫的各种资料、工具库的列表,不仅仅是 Python,还有 Go、Ruby、JavaScript、PHP 等等,首页如下:
另外还有一些爬虫商业服务、控制台工具、无头浏览器、验证码破解网站等等。
比如我们看看 Python 的,里面就收集了各种请求库、解析库、数据处理库等等:
这里就不一一放了,是不是又大又全?
awesome-web-scraping 中文版
是的,awesome 系列仓库还有更小的分支,那就是根据语言划分的分支,比如说中文版、日文版、俄文版等等,比如说 awesome-windows 上面就分了中文:https://github.com/Awesome-Windows/Awesome,
其他的很多 awesome 仓库也有中文,比如:
- awesome-anrdoid 中文:https://github.com/jobbole/awesome-android-cn
- awesome-ios 中文:https://github.com/jobbole/awesome-ios-cn
OK,那我做了件什么事呢?
我也为 awesome-web-scraping 创建了一个中文版本的仓库:https://github.com/Germey/AwesomeWebScraping。
其实就是对原仓库进行了一次翻译,也是区分了各种语言,比如 Python、JavaScript 等各个语言的工具库全在这里面了!另外每个语言都有很多分类,像请求库、爬取框架、解析库、自然语言处理、消息队列等等,都在这里了:
比如部分的内容大致如下:
总之,这个库的目标就是做一个 GitHub 上收集有关网络爬虫工具库的最全的中文版集合!
“当然现在我还在翻译和优化过程中,部分内容可能不是完全通顺,还会继续更新和完善的。
”
大家如果发现有遗漏的库,想往里面加的话也欢迎提 PR,我会一并收纳和整理,一起让它完善起来吧!
往期精彩回顾▼ 全国结婚率连续5年下降,这届年轻人,为什么不敢结婚?最详细Python打包exe教程,并修改图标,30秒搞定!简单实用,Python代码调试利器~抖音上好看的跳舞小姐姐,Python都给你都下载好了!爬虫实战:英雄联盟手游能“干掉”王者荣耀?微博4.3亿网友吵翻了……
分享
收藏
点赞
在看