Beanbun可扩展的爬虫框架

联合创作 · 2023-09-29 13:37

简介

Beanbun 是一个简单可扩展的爬虫框架，支持分布式，支持守护进程模式与普通模式，守护进程模式基于 Workerman，下载器基于 Guzzle。

特点

支持守护进程与普通两种模式（守护进程模式只支持 Linux 服务器）

默认使用 guzzle 进行爬取

支持分布式

支持内存、Redis 等多种队列方式

支持自定义URI过滤

支持广度优先和深度优先两种爬取方式

遵循 PSR-4 标准

爬取网页分为多步，每步均支持自定义动作（如添加代理、修改 user-agent 等）

灵活的扩展机制，可方便的为框架制作插件：自定义队列、自定义爬取方式...

安装

Beanbun 可以通过 composer 进行安装。

$ composer require kiddyu/beanbun

快速开始

创建一个文件 start.php，包含以下内容

<?php

use Beanbun\Beanbun;

$beanbun = new Beanbun;

$beanbun->seed = [

	'http://www.950d.com/',

	'http://www.950d.com/list-1.html',

	'http://www.950d.com/list-2.html',

];

$beanbun->afterDownloadPage = function($beanbun) {

	file_put_contents(__DIR__ . '/' . md5($beanbun->url), $beanbun->page);

};

$beanbun->start();

在命令行中执行

$ php start.php

接下来就可以看到抓取的日志了。

插件

beanbun-parser 数据抽取插件 https://github.com/kiddyuchina/beanbun-parser

更多详细内容，请查看文档

浏览 20

点赞

收藏

分享

举报

评论

图片

表情

ZenML可扩展的开源 MLOps 框架

ZenML是一个可扩展的开源MLOps框架，用于创建生产就绪的机器学习管道。它专为数据科学家打造，具有简单、灵活的语法，与云和工具无关，并具有迎合ML工作流的接口/抽象。ZenML管道的核心是执行特定

ZenML可扩展的开源 MLOps 框架

ZenML可扩展的开源 MLOps 框架

LayerD编程语言可扩展框架

LayerD是为了建立一个可扩展框架的编程语言。它具有无限的编译时间可编程，模块化设计，热插拔代码生

openhandx unreal可扩展的轻量级 web 框架

OpenHandx-Unreal是一个可扩展的轻量级web框架。Unreal以Ajax技术为核心，开创了SS（Script-Service）脚本服务框架开发模式，并完全兼容MVC（Model-View

LayerD编程语言可扩展框架

LayerD是为了建立一个可扩展框架的编程语言。它具有无限的编译时间可编程，模块化设计，热插拔代码生成的，统一的高层次语义，多源语言，整合的RAD工具，编译器和语言，发展领域特定语言，抽象的软件开发，

LUYA可扩展的 Web 框架和内容管理系统

LUYA是一个免费的、开源的工具箱，用于构建任意大小的网站和web应用程序，通过管理、内容管理系统和其他有用模块扩展了Yii框架。 LUYA是一个可扩展的web框架和内容管理系统。 PHP

Apache Pirk可扩展的私有信息检索框架

ApachePirk(孵化)是一个可扩展的私有信息检索框架（PIR）。Pirk的目标是提供一个强大的，可扩展的，并能具体实现PIR算法的登陆地址。

AdaNet轻量级和可扩展的 TensorFlow AutoML 框架

谷歌开源的AdaNet是一个轻量级的基于TensorFlow的框架，可以在最少的专家干预下自动学习高质量的模型。AdaNet使用了 AdaNet 算法用于训练和部署自适应神经网络 [Corteseta

ZoeeyPHPPHP扩展实现的框架

ZoeeyPHP 是PHP扩展实现的Web开发框架底层，特点是较大限度的将控制权释放给了程序员。建

ZoeeyPHPPHP扩展实现的框架

ZoeeyPHP是PHP扩展实现的Web开发框架底层，特点是较大限度的将控制权释放给了程序员。建议PHP版本>=5.2.0。为经验丰富的开发人员设计。提供最基础的开发功能如字符串控制、客户端数据

点赞

收藏

分享

举报