从 0 到 1 带你搭建 Java 并发爬虫框架(二):爬虫框架和项目搭建
本篇开始框架的第一步,先了解下整个框架的思路,然后到IDE中创建项目,开始ing。
爬虫框架搭建
主体框架采用现在比较火热的微服务框架 Spring Boot,HTTP 请求部分基于 HttpClient 封装,页面解析部分使用 FastJson + jsoup,数据储存采用 Bmob 后端云数据库。项目的整体架构如下图(点击放大):
整个框架根据功能或业务分为 4 层 / 模块:代理层、HTTP 请求层、业务层、调度层。后面会依次介绍每一层的实现逻辑,首先我们从创建项目开始。
注:在学习和实践爬虫框架搭建时,建议将源码项目也在编辑器中打开,参考着源码看文章效果更好,因为文中不可能把所有代码都贴出来,未贴出的部分可以在源码中了解,这样更方便理解框架。
框架源码地址:
https://github.com/AlanYangs/spiders/tree/master/spider-framework
一、新建 Spring Boot 项目
本项目采用宇宙最强的 IDEA 开发工具,新建 Spring Boot 项目,JDK 建议选择 1.8(熟悉的同学可以跳过本小节):
下一步,输入项目的 group 和 artifact:
下一步,选择依赖,这里暂时就选择 Web:
下一步,输入 module 名称,项目创建完成。
接着再新建一些后面需要用的包,整体的项目结构及核心包名的说明如下图所示:
再贴一下项目中所需要用到的依赖,这里就直接给出对应的 pom:
org.springframework.boot
spring-boot-starter-web
org.apache.httpcomponents
httpclient
4.5.5
com.google.guava
guava
18.0
org.jsoup
jsoup
1.11.2
com.alibaba
fastjson
1.2.51
commons-io
commons-io
2.6
org.springframework.boot
spring-boot-starter-test
test
后面章节将会按架构图中分层的功能和模块来逐步实现对应的功能和服务。
【本系列历史章节链接】:
从 0 到 1 带你搭建 Java 并发爬虫框架(一):爬虫原理和流程
评论