Beanbun可扩展的爬虫框架
简介
Beanbun 是一个简单可扩展的爬虫框架,支持分布式,支持守护进程模式与普通模式,守护进程模式基于 Workerman,下载器基于 Guzzle。
特点
- 支持守护进程与普通两种模式(守护进程模式只支持 Linux 服务器)
- 默认使用 guzzle 进行爬取
- 支持分布式
- 支持内存、Redis 等多种队列方式
- 支持自定义URI过滤
- 支持广度优先和深度优先两种爬取方式
- 遵循 PSR-4 标准
- 爬取网页分为多步,每步均支持自定义动作(如添加代理、修改 user-agent 等)
- 灵活的扩展机制,可方便的为框架制作插件:自定义队列、自定义爬取方式...
安装
Beanbun 可以通过 composer 进行安装。
$ composer require kiddyu/beanbun
快速开始
创建一个文件 start.php,包含以下内容
<?php use Beanbun\Beanbun; $beanbun = new Beanbun; $beanbun->seed = [ 'http://www.950d.com/', 'http://www.950d.com/list-1.html', 'http://www.950d.com/list-2.html', ]; $beanbun->afterDownloadPage = function($beanbun) { file_put_contents(__DIR__ . '/' . md5($beanbun->url), $beanbun->page); }; $beanbun->start();
在命令行中执行
$ php start.php
接下来就可以看到抓取的日志了。
插件
- beanbun-parser 数据抽取插件 https://github.com/kiddyuchina/beanbun-parser
更多详细内容,请查看 文档
评论
ZenML可扩展的开源 MLOps 框架
ZenML是一个可扩展的开源MLOps框架,用于创建生产就绪的机器学习管道。它专为数据科学家打造,具有简单、灵活的语法,与云和工具无关,并具有迎合ML工作流的接口/抽象。ZenML管道的核心是执行特定
ZenML可扩展的开源 MLOps 框架
0
openhandx unreal可扩展的轻量级 web 框架
OpenHandx-Unreal是一个可扩展的轻量级web框架。Unreal以Ajax技术为核心,开创了SS(Script-Service)脚本服务框架开发模式,并完全兼容MVC(Model-View
openhandx unreal可扩展的轻量级 web 框架
0
LayerD编程语言可扩展框架
LayerD是为了建立一个可扩展框架的编程语言。它具有无限的编译时间可编程,模块化设计,热插拔代码生成的,统一的高层次语义,多源语言,整合的RAD工具,编译器和语言,发展领域特定语言,抽象的软件开发,
LayerD编程语言可扩展框架
0
LUYA可扩展的 Web 框架和内容管理系统
LUYA是一个免费的、开源的工具箱,用于构建任意大小的网站和web应用程序,通过管理、内容管理系统和其他有用模块扩展了Yii框架。 LUYA是一个可扩展的web框架和内容管理系统。 PHP
LUYA可扩展的 Web 框架和内容管理系统
0
Apache Pirk可扩展的私有信息检索框架
ApachePirk(孵化)是一个可扩展的私有信息检索框架(PIR)。Pirk的目标是提供一个强大的,可扩展的,并能具体实现PIR算法的登陆地址。
Apache Pirk可扩展的私有信息检索框架
0