Node-cnblogs-spider基于 Node 实现的爬虫

联合创作 · 2023-09-29 13:40

spider_cnblogs

spider_cnblogs 是专门爬取博客园的文章并自动将文章转成 .md 存储至本地的爬虫。

安装

npm install node-cnblogs-spider --save

使用

var ncs = require('node-cnblogs-spider')

ncs([

    http://xxxx, 

    http://xxxx 

])

示例

依赖

to-markdown 将html转md

cheerio 类似于Sizzle的nodejs的实现

bluebird 是对es6种Promise方法的封装与ose展库

文档

[译] NodeJS 错误处理最佳实践

Nodejs异步异常处理domain

使用Promise尽量脱离回调地狱，使得代码可读性更高

html转md格式的包还是有缺陷的,不然完美展现出.md

生成本地文件使用的是stream实现，效率更高。但是要注意文件的命名规范。

License

MIT

浏览 14

点赞

收藏

分享

举报

评论

图片

表情

基于SpringBoot+WebMagic实现一个的爬虫框架

程序员的成长之路

Node OsmosisNode.js Web 爬虫

Osmosis是Node.js用来解析HTML/XML和Web内容爬取的扩展。示例代码：var osmosis = require('osmosis');osmosis.get('www.craigs

NebulaDB基于 Node 的数据库

NebulaDB 这个项目开始是准备做一个逻辑编程语言的，但我决定还是把它变成一个数据库，因为我觉得

NebulaDB基于 Node 的数据库

NebulaDB这个项目开始是准备做一个逻辑编程语言的，但我决定还是把它变成一个数据库，因为我觉得自己更适合干这个事。NebulaDB基于Node.js服务器运行，同时提供一个Node.js模块用来和

Node OsmosisNode.js Web 爬虫

Osmosis 是 Node.js 用来解析 HTML/XML 和 Web 内容爬取的扩展。示例代码

6个必备的 Node 网络爬虫库

作为一名程序员，你是否曾遇到过需要从各大网站提取数据的需求？随着互联网的快速扩展，能够高效地进行网络爬虫已经成为企业、研究人员以及个人的一项重要技能。在这个数据为王的时代，如何利用JavaScript和Node.js来实现高效的数据抓取，是每一个开发者都应该掌握的技巧。网络爬虫，即从网站提取数据的过

开发基于 gRPC 协议的 Node 服务【Node进阶】

程序员成长指北

Go-nodeGo 实现的 Erlang/OTP node

Go-node 是一个用 Go 语言实现的 Erlang/OTP node已支持的功能：Publis

Go-nodeGo 实现的 Erlang/OTP node

Go-node是一个用Go语言实现的Erlang/OTPnode已支持的功能：PublishlistenportviaEPMDHandleincomingconnectionfromothernode

rebas基于 Node 的 JavaScript 同构解决方案

rebas基于 Node 的 JavaScript 同构解决方案

点赞

收藏

分享

举报