nspiderNode 版的轻量级爬虫框架
nspider
node版的轻量级爬虫框架
特性:
-
在服务端进行dom处理,默认使用的jquery语法
-
请求控制
-
优先请求队列
-
兼容node4.x或更高版本
快速开始
如何安装
$ npm install nspider22
使用示例
//简单示例 var nspider=require('nspider22') var nsp=new nspider({name:'baidu'}); nsp.onHtml('a',function(ele){ console.log(ele.$.attr('href')); }) nsp.visit("http://www.baidu.com"); //设置header var nspider=require('nspider22') var nsp=new nspider({name:'zhihu'}); nsp.setHeaders({ "Cache-Control":"private,no-store,max-age=0,no-cache,must-revalidate,post-check=0,pre-check=0", "Connection":"keep-alive", "Content-Encoding":"gzip", "Content-Security-Policy":"default-src * blob:;img-src * data: blob:;frame-src 'self' *.zhihu.com *.zhihu.dev getpocket.com note.youdao.com safari-extension://com.evernote.safari.clipper-Q79WDW8YH9 weixin: zhihujs: v.qq.com v.youku.com www.bilibili.com *.vzuu.com;script-src 'self' *.zhihu.com *.google-analytics.com zhstatic.zhihu.com res.wx.qq.com 'unsafe-eval' unpkg.zhimg.com unicom.zhimg.com blob:;style-src 'self' *.zhihu.com *.zhihu.dev unicom.zhimg.com 'unsafe-inline';connect-src * wss:", "Content-Type":"text/html; charset=utf-8", "Date":"Thu, 19 Oct 2017 02:37:30 GMT", "Expires":"Fri, 02 Jan 2000 00:00:00 GMT", "Pragma":"no-cache", "Server":"ZWS", "Set-Cookie":"", "Transfer-Encoding":"chunked", "Vary":"Accept-Encoding", "X-Backend-Server":"heifetz.heifetz.fba20226---10.3.183.2:31036[10.3.183.2:31036]", "X-Frame-Options":"DENY", "X-Req-ID":"3570E3F59E80FE9", "X-Req-SSL":"proto=TLSv1.2,sni=,cipher=ECDHE-RSA-AES256-GCM-SHA384" }) nsp.onHtml('.tab-panel a.question_link',function(ele){ if(ele.tag=='zhihu'){ console.log(ele.$.attr('href')); nsp.visit('https://www.zhihu.com'+ele.$.attr('href'),'item') } }) nsp.onHtml("body",function(ele){ if(ele.tag=='item'){ console.log(ele.$.text()) } }) nsp.visit("https://www.zhihu.com/explore","zhihu");
todolist
-
处理复杂的ajax请求
-
重构代码
-
命令支持
-
中间件支持
评论
XCrawler轻量级的 PHP 爬虫框架
XCrawler-轻量级、易维护的PHP爬虫框架特性:极易上手,具备完善的文档和示例支持多并发爬取支持基于xpath、css选择器解析内容模拟浏览器行为,如user-agent、cookie、提交表单
XCrawler轻量级的 PHP 爬虫框架
0
wind-bell轻量级的爬虫工具
wind-bell风铃虫是一款轻量级的爬虫工具,似风铃一样灵敏,如蜘蛛一般敏捷,能感知任何细小的风吹草动,轻松抓取互联网上的内容。它是一款对目标服务器相对友好的蜘蛛程序,内置了二十余种常见或不常见的浏
wind-bell轻量级的爬虫工具
0
u-orm轻量级的ORM框架
u-orm是一个适用、快速、简单、轻量级的JavaORM小型框架,无第三方包依赖,只有一个commons-logging.jar,为了日志输出。整个jar包只有121KB,并封装了很多实用的操作函数,
u-orm轻量级的ORM框架
0
EngJS轻量级的前端框架
EngJS是超轻量级的前端新框架,是Angular,Vue和React的同类JavaScript框架,拥有最低的学习曲线,最简易的实现方式,最简的思想。Eng当前版本仅有7个指令,5个选项方法,12k
EngJS轻量级的前端框架
0
CMockeryC 单元测试的轻量级框架
CMockery是Google发布的用于C单元测试的一个轻量级的框架。它很小巧,对其他开源包没有依赖,对被测试代码侵入性小。CMockery的源代码行数不到3K,你阅读一下will_return和mo
CMockeryC 单元测试的轻量级框架
0