goodcrawler网络爬虫
goodcrawler(GC) 网络爬虫
GC是一个垂直领域的爬虫,同时也是一个拆箱即用的搜索引擎。
GC基于httpclient、htmlunit、jsoup、elasticsearch。
GC的特点:
1、具有DSL特性的模板。
2、分布式、可扩展。
3、辛亏有htmlunit,它能较好地支持javascript。
5、合理的插件设计,方便功能扩充。
6、天然继承es,本身即是一个完整的搜索引擎。
评论
DenseSpider网络爬虫
本项目fork项目go_spider,github:https://github.com/hu17889/go_spider ,因此项目架构的部分文档可以参考此项目。同时项目架构、部分思路参考了pyt
DenseSpider网络爬虫
0
kamike.collect网络爬虫
AnotherSimpleCrawler又一个网络爬虫,可以支持代理服务器的翻墙爬取。1.数据存在mysql当中。2.使用时,先修改web-inf/config.ini的数据链接相关信息,主要是数据库
kamike.collect网络爬虫
0
ItSucks网络爬虫
ItSucks是一个javawebspider(web机器人,爬虫)开源项目。支持通过下载模板和正则表达式来定义下载规则。提供一个swingGUI操作界面。
ItSucks网络爬虫
0
larbin网络爬虫/网络蜘蛛
larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人SébastienAilleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。Larbi
larbin网络爬虫/网络蜘蛛
0