NEOCrawler爬虫系统-技术圈

NEOCrawler(中文名：牛咖)，是nodejs、redis、phantomjs实现的爬虫系统。代码完全开源，适合用于垂直领域的数据采集和爬虫二次开发。

【主要特点】

使用nodejs实现，javascipt简单、高效、易学、为爬虫的开发以及爬虫使用者的二次开发节约不少时间；nodejs使用 Google V8作为运行引擎，性能可观；由于nodejs语言本身非阻塞、异步的特性，运行爬虫这类IO密集CPU需求不敏感的系统表现很出色，与其他语言的版本简单的比较，开发量小于C/C++/JAVA，性能高于JAVA的多线程实现以及Python的异步和携程方式的实现。
调度中心负责网址的调度，爬虫进程分布式运行，即中央调度器统一决策单个时间片内抓取哪些网址，并协调各爬虫工作，爬虫单点故障不影响整体系统。
爬虫在抓取时就对网页进行了结构化解析，摘取到需要的数据字段，入库时不仅是网页源代码还有结构化了的各字段数据，不仅使得网页抓取后数据立马可用，而且便于实现入库时的精准化的内容排重。
集成了phantomjs。phantomjs是无需图形界面环境的网页浏览器实现，利用它可以抓取需要js执行才产生内容的网页。通过js语句执行页面上的用户动作，实现表单填充提交后再抓取下一页内容、点击按钮后页面跳转再抓取下一页内容等。
重试及容错机制。http请求有各种意外情况，都有重试机制，失败后有详细记录便于人工排查。都返回的页面内容有校验机制，能检测到空白页，不完整页面或者是被代理服务器劫持的页面；
可以预设cookie，解决需要登录后才能抓取到内容的问题。
限制并发数，避免因为连接数过多被源网站屏蔽IP的问题。
集成了代理IP使用的功能，此项功能针对反抓取的网站（限单IP下访问数、流量、智能判断爬虫的），需要提供可用的代理IP，爬虫会自主选择针对源网站还可以访问的代理IP地址来访问，源网站无法屏蔽抓取。
产品化功能，爬虫系统的基础部分和具体业务实现部分架构上分离，业务实现部分不需要编码，可以用配置来完成。
Web界面的抓取规则设置，热刷新到分布式爬虫。在Web界面配置抓取规则，保存后会自动将新规则刷新给运行在不同机器上的爬虫进程，规则调整不需要编码、不需要重启程序。

可配置项：

1). 用正则表达式来描述，类似的网页归为一类，使用相同的规则。一个爬虫系统（下面几条指的都是某类网址可配置项）；

2). 起始地址、抓取方式、存储位置、页面处理方式等；

3). 需要收集的链接规则，用CSS选择符限定爬虫只收集出现在页面中某个位置的链接；

3). 页面摘取规则，可以用CSS选择符、正则表达式来定位每个字段内容要抽取的位置；

4). 预定义要在页面打开后注入执行的js语句;

5). 网页预设的cookie;

6). 评判该类网页返回是否正常的规则，通常是指定一些网页返回正常后页面必然存在的关键词让爬虫检测；

7). 评判数据摘取是否完整的规则，摘取字段中选取几个非常必要的字段作为摘取是否完整的评判标准；

8). 该类网页的调度权重（优先级）、周期（多久后重新抓取更新）。

为了减少冗余开发，根据抓取需求划分为实例，每个实例的基础配置（存储数据库、爬虫运行参数、定制化代码）都可以不同，即抓取应用配置的层次为：爬虫系统->实例->网址。
爬虫系统结构上参考了scrapy，由core、spider、downloader、extractor、pipeline组成，core是各个组件的联合点和事件控制中心，spider负责队列的进出，downloader负责页面的下载，根据配置规则选择使用普通的html 源码下载或者下载后用phantomjs浏览器环境渲染执行js/css，extractor根据摘取规则对文档进行结构化数据摘取，pipeline负责将数据持久化或者输出给后续的数据处理系统。这些组件都提供定制化接口，如果通过配置不能满足需求，可以用js代码很容易个性化扩展某个组件的功能。

【架构】

提示：_建议刚接触本系统的用户跳过架构介绍环节直接进入第二部分，先将系统运行起来，有一个感性认识后再来查阅架构的环节，如果您需要做深入的二次开发，请仔细阅读本环节资料_

整体架构

图中黄色部分为爬虫系统的各个子系统。

SuperScheduler是中央调度器，Spider爬虫将收集到的网址放入到各类网址所对对应的网址库中，SuperScheduler会依据调度规则从各类网址库抽取相应量的网址放入待抓取队列。
Spider是分布式运行的爬虫程序，从调度器调度好的待抓取队列中取出任务进行抓取，将发现的网址放入网址库，摘取的内容存库，将爬虫程序分为core一个核心和download、extract、pipeline 4个中间件，是为了在爬虫实例中能够比较容易的重新定制其中某块功能。
ProxyRouter是在使用代理IP的时候将爬虫请求智能路由给可用代理IP的。
Webconfig是web的爬虫规则配置后台。