hispider网页爬虫框架

联合创作 · 2023-09-29 13:07

HiSpider is a fast and high performance spider with high speed

严格说只能是一个spider系统的框架, 没有细化需求, 目前只是能提取URL, URL排重, 异步DNS解析, 队列化任务, 支持N机分布式下载, 支持网站定向下载(需要配置hispiderd.ini whitelist).

特征和用法:

基于unix/linux系统的开发

异步DNS解析

URL排重

支持HTTP 压缩编码传输 gzip/deflate

字符集判断自动转换成UTF-8编码

文档压缩存储

支持多下载节点分布式下载

支持网站定向下载(需要配置 hispiderd.ini whitelist )

可通过 http://127.0.0.1:3721/ 查看下载情况统计,下载任务控制(可停止和恢复任务)

依赖基本通信库libevbase 和 libsbase (安装的时候需要先安装这个两个库)

工作流程:

从中心节点取URL(包括URL对应的任务号, IP和port,也可能需要自己解析)

连接服务器发送请求

等待数据头判断是否需要的数据(目前主要取text类型的数据)

等待完成数据(有length头的直接等待说明长度的数据否则等待比较大的数字然后设置超时)

数据完成或者超时, zlib压缩数据返回给中心服务器,数据可能包括自己解析DNS信息, 压缩后数据长度+压缩后数据, 如果出错就直接返回任务号以及相关信息

中心服务器收到带有任务号的数据, 查看是否包括数据, 如果没有数据直接置任务号对应的状态为错误, 如果有数据提取数据种link 然后存储数据到文档文件.

完成后返回一个新的任务.

浏览 26

点赞

收藏

分享

举报

评论

图片

表情

ScrapingSpider网页爬虫

ScrapingSpider 是一个业余时间开发的，支持多线程，支持关键字过滤，支持正文内容智能识别

YaCy网页爬虫

YaCy基于p2p的分布式Web搜索引擎.同时也是一个Http缓存代理服务器.这个项目是构建基于p2

YaCy网页爬虫

YaCy基于p2p的分布式Web搜索引擎.同时也是一个Http缓存代理服务器.这个项目是构建基于p2pWeb索引网络的一个新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的网页或启动分布式

Spiderq网页爬虫

Spiderq是一个网页爬虫，性能依赖于服务器配置和网络情况。

ScrapingSpider网页爬虫

ScrapingSpider是一个业余时间开发的，支持多线程，支持关键字过滤，支持正文内容智能识别的爬虫。爬虫的核心实现在ScrapingSpider.Core程序集中。爬虫类为Spider类，爬

Ex-Crawler网页爬虫

Ex-Crawler 是一个网页爬虫，采用 Java 开发，该项目分成两部分，一个是守护进程，另外一

Ex-Crawler网页爬虫

Ex-Crawler是一个网页爬虫，采用Java开发，该项目分成两部分，一个是守护进程，另外一个是灵活可配置的Web爬虫。使用数据库存储网页信息。

Methanol网页爬虫

Methanol 是一个模块化的可定制的网页爬虫软件，主要的优点是速度快。

JSpiderJava网页爬虫

JSpider 是一个用 Java 实现的 WebSpider，JSpider 的执行格式如下：js

JSpiderJava网页爬虫

JSpider是一个用Java实现的WebSpider，JSpider的执行格式如下：jspider[URL][ConfigName]URL一定要加上协议名称，如：http://，否则会报错。如果省掉

点赞

收藏

分享

举报