GuozhongCrawler开源爬虫框架
guozhongCrawler的是一个无须配置、便于二次开发的爬虫开源框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。模块化设计完全 面向业务提供接口,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试,定制执行js、 自定义cookie等功能。在处理网站抓取多次后被封IP的问题上,guozhongCrawler采用动态轮换IP机制有效防止IP被封。另外,源码中 的注释及Log输出全部采用通俗易懂的中文。让初学者能有更加深刻的理解
评论
WebPasser开源爬虫框架
WebPasser是一款可配置的开源爬虫框架,提供爬虫控制台管理界面,通过配置解析各类网页内容,无需写一句java代码即可抽取所需数据。1.包含强大的页面解析引擎,提供jsoup、xpath、正则表达
WebPasser开源爬虫框架
0
CreeperGo 版本开源爬虫框架
Creeper是一个基于简单脚本(CreeperScript,扩展名.crs)的下一代开源爬虫框架。需要配合一门正经的编程语言(只开发了Go版本)来使用,先在CreeperScript内定义爬取规则,
CreeperGo 版本开源爬虫框架
0
VW-CrawlerJava 爬虫框架
VW-Crawler背景自己一直对爬虫比较感兴趣,大学的毕业论文也是一个爬虫项目(爬教务处信息,然后做了个Android版教务管理系统,还获得了优秀毕业设计的称号),自那以后遇到自己感兴趣的网站就会去
VW-CrawlerJava 爬虫框架
0
crawler-javaJava 爬虫框架
一个简约灵活强大的Java爬虫框架。Features:1、代码简单易懂,可定制性强2、简单且易于使用的api3、支持文件下载、分块抓取4、请求和相应支持的内容和选项比较丰富、每个请求可定制性强5、支持
crawler-javaJava 爬虫框架
0