DenseSpider网络爬虫

联合创作 · 2023-09-29 13:29

本项目 fork 项目go_spider，github：https://github.com/hu17889/go_spider ，因此项目架构的部分文档可以参考此项目。

同时项目架构、部分思路参考了 python 的经典爬虫scrapy。

基本结构：

Spider模块（主控）

Downloader模块（下载器）

PageProcesser模块（页面分析）

History（Url采集历史记录）

Scheduler模块（任务队列）

Pipeline模块（结果输出）

主要Feature:

1. 基于Go语言的并发采集

2. 页面下载、分析、持久化模块化，可自定义扩展

3. 采集日志记录（Mongodb支持）

4. 页面数据自定义存储（Mysql、Mongodb）

5. 深度遍历，同时可自定义深度层次

6. Xpath解析

主要用于定向采集网站。

浏览 18

点赞

收藏

分享

举报

评论

图片

表情

ItSucks网络爬虫

ItSucks 是一个 java web spider（web 机器人，爬虫）开源项目。支持通过下载

goodcrawler网络爬虫

goodcrawler(GC) 网络爬虫GC是一个垂直领域的爬虫，同时也是一个拆箱即用的搜索引擎。G

goodcrawler网络爬虫

goodcrawler(GC)网络爬虫GC是一个垂直领域的爬虫，同时也是一个拆箱即用的搜索引擎。GC基于httpclient、htmlunit、jsoup、elasticsearch。GC的特点：1、

kamike.collect网络爬虫

Another Simple Crawler 又一个网络爬虫，可以支持代理服务器的翻墙爬取。1.数据

kamike.collect网络爬虫

AnotherSimpleCrawler又一个网络爬虫，可以支持代理服务器的翻墙爬取。1.数据存在mysql当中。2.使用时，先修改web-inf/config.ini的数据链接相关信息，主要是数据库

larbin网络爬虫/网络蜘蛛

larbin是一种开源的网络爬虫/网络蜘蛛，由法国的年轻人SébastienAilleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取，最后为搜索引擎提供广泛的数据来源。Larbi

ItSucks网络爬虫

ItSucks是一个javawebspider（web机器人，爬虫）开源项目。支持通过下载模板和正则表达式来定义下载规则。提供一个swingGUI操作界面。

网络爬虫（一）

数据科学与人工智能

SpidermanJava网络蜘蛛/网络爬虫

Spiderman是一个基于微内核+插件式架构的网络蜘蛛，它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。最新提示：欢迎来体验最新版本Spiderman2，http:

larbin网络爬虫/网络蜘蛛

larbin是一种开源的网络爬虫/网络蜘蛛，由法国的年轻人 Sébastien Ailleret独立

点赞

收藏

分享

举报