从 0 到 1 带你搭建 Java 并发爬虫框架(二):爬虫框架和项目搭建

共 1441字,需浏览 3分钟

 ·

2020-08-18 02:55

本篇开始框架的第一步,先了解下整个框架的思路,然后到IDE中创建项目,开始ing。

爬虫框架搭建

主体框架采用现在比较火热的微服务框架 Spring Boot,HTTP 请求部分基于 HttpClient 封装,页面解析部分使用 FastJson + jsoup,数据储存采用 Bmob 后端云数据库。项目的整体架构如下图(点击放大):

整个框架根据功能或业务分为 4 层 / 模块:代理层、HTTP 请求层、业务层、调度层。后面会依次介绍每一层的实现逻辑,首先我们从创建项目开始。

注:在学习和实践爬虫框架搭建时,建议将源码项目也在编辑器中打开,参考着源码看文章效果更好,因为文中不可能把所有代码都贴出来,未贴出的部分可以在源码中了解,这样更方便理解框架。

框架源码地址:

https://github.com/AlanYangs/spiders/tree/master/spider-framework

一、新建 Spring Boot 项目

本项目采用宇宙最强的 IDEA 开发工具,新建 Spring Boot 项目,JDK 建议选择 1.8(熟悉的同学可以跳过本小节):

下一步,输入项目的 group 和 artifact:

下一步,选择依赖,这里暂时就选择 Web:

下一步,输入 module 名称,项目创建完成。

接着再新建一些后面需要用的包,整体的项目结构及核心包名的说明如下图所示:

再贴一下项目中所需要用到的依赖,这里就直接给出对应的 pom:

            org.springframework.boot        spring-boot-starter-web    
org.apache.httpcomponents httpclient 4.5.5
com.google.guava guava 18.0
org.jsoup jsoup 1.11.2
com.alibaba fastjson 1.2.51
commons-io commons-io 2.6
org.springframework.boot spring-boot-starter-test test

后面章节将会按架构图中分层的功能和模块来逐步实现对应的功能和服务。

【本系列历史章节链接】
从 0 到 1 带你搭建 Java 并发爬虫框架(一):爬虫原理和流程


测试开发栈

软件测试开发合并必将是趋势,不懂开发的测试、不懂测试的开发都将可能被逐渐替代,因此前瞻的技术储备和知识积累是我们以后在职场和行业脱颖而出的法宝,期望我们的经验和技术分享能让你每天都成长和进步,早日成为测试开发栈上的技术大牛~~


长按二维码/微信扫描关注


欢迎加入QQ群交流和提问:427020613

互联网测试开发一站式全栈分享平台


浏览 37
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报