DenseSpider网络爬虫
本项目 fork 项目go_spider,github:https://github.com/hu17889/go_spider ,因此项目架构的部分文档可以参考此项目。
同时项目架构、部分思路参考了 python 的经典爬虫scrapy。
基本结构:
Spider模块(主控) Downloader模块(下载器) PageProcesser模块(页面分析) History(Url采集历史记录) Scheduler模块(任务队列) Pipeline模块(结果输出)
主要Feature:
1. 基于Go语言的并发采集 2. 页面下载、分析、持久化模块化,可自定义扩展 3. 采集日志记录(Mongodb支持) 4. 页面数据自定义存储(Mysql、Mongodb) 5. 深度遍历,同时可自定义深度层次 6. Xpath解析
主要用于定向采集网站。
评论
goodcrawler网络爬虫
goodcrawler(GC)网络爬虫GC是一个垂直领域的爬虫,同时也是一个拆箱即用的搜索引擎。GC基于httpclient、htmlunit、jsoup、elasticsearch。GC的特点:1、
goodcrawler网络爬虫
0
kamike.collect网络爬虫
AnotherSimpleCrawler又一个网络爬虫,可以支持代理服务器的翻墙爬取。1.数据存在mysql当中。2.使用时,先修改web-inf/config.ini的数据链接相关信息,主要是数据库
kamike.collect网络爬虫
0
larbin网络爬虫/网络蜘蛛
larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人SébastienAilleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。Larbi
larbin网络爬虫/网络蜘蛛
0
ItSucks网络爬虫
ItSucks是一个javawebspider(web机器人,爬虫)开源项目。支持通过下载模板和正则表达式来定义下载规则。提供一个swingGUI操作界面。
ItSucks网络爬虫
0