WebSPHINX网络爬虫工具

联合创作 · 2023-09-29 12:59

WebSPHINX (Website-Specific Processors for HTML INformation eXtraction)是一个用于网络爬虫的 Java 类库和互动开发环境。网络爬虫是一个自动浏览和处理网页的程序。

WebSPHINX 由两部分组成：爬虫工作平台和WebSPHINX类库。

浏览 22

点赞

收藏

分享

举报

评论

图片

表情

kamike.collect网络爬虫

AnotherSimpleCrawler又一个网络爬虫，可以支持代理服务器的翻墙爬取。1.数据存在mysql当中。2.使用时，先修改web-inf/config.ini的数据链接相关信息，主要是数据库

goodcrawler网络爬虫

goodcrawler(GC) 网络爬虫GC是一个垂直领域的爬虫，同时也是一个拆箱即用的搜索引擎。G

DenseSpider网络爬虫

本项目fork项目go_spider，github：https://github.com/hu17889/go_spider ，因此项目架构的部分文档可以参考此项目。同时项目架构、部分思路参考了pyt

goodcrawler网络爬虫

goodcrawler(GC)网络爬虫GC是一个垂直领域的爬虫，同时也是一个拆箱即用的搜索引擎。GC基于httpclient、htmlunit、jsoup、elasticsearch。GC的特点：1、

kamike.collect网络爬虫

Another Simple Crawler 又一个网络爬虫，可以支持代理服务器的翻墙爬取。1.数据

ItSucks网络爬虫

ItSucks 是一个 java web spider（web 机器人，爬虫）开源项目。支持通过下载

larbin网络爬虫/网络蜘蛛

larbin是一种开源的网络爬虫/网络蜘蛛，由法国的年轻人SébastienAilleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取，最后为搜索引擎提供广泛的数据来源。Larbi

DenseSpider网络爬虫

本项目 fork 项目go_spider，github：https://github.com/hu1

ItSucks网络爬虫

ItSucks是一个javawebspider（web机器人，爬虫）开源项目。支持通过下载模板和正则表达式来定义下载规则。提供一个swingGUI操作界面。

网络爬虫（一）

数据科学与人工智能

点赞

收藏

分享

举报