WebFetch极简网络爬虫组件

联合创作 · 2023-09-23 08:47

WebFetch 是无依赖极简网页爬取组件，能在移动设备上运行的微型爬虫。

WebFetch 要达到的目标：

没有第三方依赖jar包

减少内存使用

提高CPU利用率

加快网络爬取速度

简洁明了的api接口

能在Android设备上稳定运行

小巧灵活可以方便集成的网页抓取组件

使用文档

WebFetch的使用非常简单，让小白用户快速上手，WebFetch为用户配置默认页面处理方法，默认将抓取到的页面信息使用System.out.print输出到控制台（通过配置PageHandler修改默认操作）。

启动代码：

WebFetch webFetch = new WebFetch(); 

webFetch.addBeginTask("https://github.com").start();

停止代码：

webFetch.close();

WebFetch再执行start()方法后不会阻塞程序执行，可以加入多个网页地址，目前支持http与https，至少需要一个起始地址。

第一个版本还需要不断改进与完善，希望大家提出宝贵的改进意见，感谢大家的支持。

联系方式：wanghailiang333@qq.com

浏览 23

点赞

收藏

分享

举报

评论

图片

表情

SilangPHP极简 http 组件

SilangPHP是一款极简http组件，提示Api、Service模式。说明非标准化http-message,路由使用fastroute结合项目示例composercreate-project"si

SilangPHP极简 http 组件

SilangPHP是一款极简 http 组件，提示Api、Service模式。说明非标准化http-

JwChatAll极简聊天框组件

JwChatAll是一款极简的数据驱动为主的聊天框组件。安装使用npm安装npminstalljwchat使用yarn安装yarnaddjwchat使用因为本组件是基于element-ui开发。首先

JwChatAll极简聊天框组件

JwChatAll是一款极简的数据驱动为主的聊天框组件。安装使用 npm 安装npm instal

goodcrawler网络爬虫

goodcrawler(GC) 网络爬虫GC是一个垂直领域的爬虫，同时也是一个拆箱即用的搜索引擎。G

DenseSpider网络爬虫

本项目fork项目go_spider，github：https://github.com/hu17889/go_spider ，因此项目架构的部分文档可以参考此项目。同时项目架构、部分思路参考了pyt

goodcrawler网络爬虫

goodcrawler(GC)网络爬虫GC是一个垂直领域的爬虫，同时也是一个拆箱即用的搜索引擎。GC基于httpclient、htmlunit、jsoup、elasticsearch。GC的特点：1、

kamike.collect网络爬虫

Another Simple Crawler 又一个网络爬虫，可以支持代理服务器的翻墙爬取。1.数据

ItSucks网络爬虫

ItSucks 是一个 java web spider（web 机器人，爬虫）开源项目。支持通过下载

kamike.collect网络爬虫

AnotherSimpleCrawler又一个网络爬虫，可以支持代理服务器的翻墙爬取。1.数据存在mysql当中。2.使用时，先修改web-inf/config.ini的数据链接相关信息，主要是数据库

点赞

收藏

分享

举报