depth-crawler-python三级页面定向爬取

联合创作 · 2023-09-29 13:53

depth-crawler 是一个三级页面定向爬取工具。


功能


1.在python中运用scrapy框架定向爬取至三级页面,保存html页面内容与链接为xlsx表格


2.将xlsx表格内容存至elasticsearch中


3.elasticsearch查询的时候运用ik分词


4.在python中运用flask框架写前端页面呈现搜索页面和搜索的信息内容


5.查询结果高亮显示


 


安装说明


首先安装python用于编辑代码,然后安装jdk环境用于后续安装elasticsearch,elasticsearch数据库对爬取下来的数据进行处理。npm 是随同 node.js 一起安装的包管理工具,用于node.js插件管理(包括安装、卸载、管理依赖等),elasticsearch-head是elasticsearch用于监控 Elasticsearch 状态的客户端插件,包括数据可视化、执行增删改查操作等,使用JavaScript开发的依赖于Node.js


1.python(3.8.10)打开cmd输入python,有版本号说明安装成功


2.jdk(1.8.0_241)注意环境变量的配置,打开cmd输入java -version,有版本号说明安装成


3.elasticsearch(6.8.21)找到elasticsearch.bat启动成功后,在浏览器中输入(localhost:9200)出现如图便安装成


3.1.nodejs(v16.17.0)找到elasticsearch.bat启动成功后,在浏览器中输入(localhost:9200)出现如图便安装成功


3.2.elasticsearch-head(6.8.21)与elasticsearch版本一致(head插件的安装和基本使用)通过elasticsearch-head-master打开命令行,输入(grunt server)


4.扩展库部分 ——pip install 库名==版本号 (可以在cmd中输入pip list 查看所有的版本号)


4.1.flask(2.1.2)——使用 Python用于编写web应用的框架


在cmd中输入(pip install flask),指定版本号的话输入(pip install flask==2.1.2)


4.2.scrapy(2.6.1)——用于爬取网站数据、提取结构性数据


4.3.elasticsearch(7.15.2)——用于搜索信息


4.4.pandas(1.4.1)——用于处理表格数据


4.5.openpyxl(3.0.9)——可用于读写excel表格


4.6.XlsxWriter(3.0.3)——用于创建Excel XLSX文件


 


启动流程


elasticsearch:


1.在"elasticsearch"的文件夹下打开“bin文件夹然后双击"elasticsearch.bat"开始运行


2.在"elasticsearch"的文件夹下打开“head"文件夹下的"elasticsearch-head-master"复制路径(D:\\ES\\elasticsearch-6.8.21\\head\\elasticsearch-head-master)打开cmd进入路径下输入命令(grunt server)


 


效果浏览


elasticsearch:


1.打开浏览器输入(http://localhost:9200/)访问端口


2.打开浏览器输入(http://localhost:9100/)可看到elasticsearch数据库中信息


前端 :


1.运行(route.py)在浏览器中访问第一个路由(http://127.0.0.1:5000/search)可看到搜索页面


2.在搜索框中输入搜索内容(如:纺织)可出现相关信息,在最后也有分页效果


3.点击标题和内容部分会返回原网址


4.点击快照会进去html页面


5.每条内容回根据点击次数提高排名,在浏览器中输入(http://127.0.0.1:5000/restore)排名恢复原样

浏览 17
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报