WebCrawler网站数据采集工具

联合创作 · 2023-09-29 13:53

WebCrawler 是一个网站数据采集工具，使用 scrapy 框架。

环境准备

[Scrapy] (http://scrapy.org/)
[MongoDB] (https://www.mongodb.org/)

已实现的功能

爬取网站发贴信息(标题、标题URL、作者、作者URL等)，以及下载图片到本地
爬取用户地理位置信息
增加 RandomUserAgent 功能,防止被 BAN
增加延时抓取功能，防止被 BAN
采用hash方法分散到多个目录进行管理，提高打开文件夹速度

快速开始

#: 安装必要 python 库

sudo pip install scrapy

sudo pip install pymongo

#: 下载数据到本地,并且保存相关信息到MongoDB中.

scrapy crawl collector


#: 建立本地http server，查看爬取数据

python -m SimpleHTTPServer 80

#: 打开浏览器输入http://localhost/data

浏览 26

点赞

收藏

分享

举报

评论

图片

表情

NETSpider网站数据采集软件

NETSpider网站数据采集软件是一款基于.Net平台的开源软件。软件部分功能是基本Soukey软件进行开发的.这个版本采用VS2010+.NET3.5进行开发的.NETSpider采摘当前提供的主

livetv_mining直播网站数据采集

关于项目介绍项目实现爬虫、数据挖掘/分析等功能。目前主要是扫描直播站点收集数据，后续会开发相关数据分

livetv_mining直播网站数据采集

关于项目介绍项目实现爬虫、数据挖掘/分析等功能。目前主要是扫描直播站点收集数据，后续会开发相关数据分析模块。架构采用前后端分离，通过RESTFulAPI通信。前端Vue+Webpack，后端Flask

TCPDUMP网络数据采集分析工具

网络数据采集分析工具TcpDump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。tc

TCPDUMP网络数据采集分析工具

网络数据采集分析工具TcpDump 可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对

Hawk_Crawler数据采集和清洗工具

HAWK是一种数据采集和清洗工具，依据GPL协议开源，能够灵活，有效地采集来自网页，数据库，文件，并通过可视化地拖拽，快速地进行生成，过滤，转换等操作。其功能最适合的领域，是爬虫和数据清洗。Hawk的

templatespider抓取网站数据工具

扒网站工具，看好哪个网站，指定好URL，自动扒下来做成模版。所见网站，皆可为我所用！扒下来的网站，会自动变成html模版。js、css、图片等自动分好类，变为标准的模版文件。可以供网市场云建站、帝国C

语音采集、图片采集、文本采集、视频采集等数据采集

数据采集，包括语音采集、视频采集、图片采集、文本采集等。

推荐8款好用的数据采集工具

产品的技术小课

数据采集标注

为AI人工智能企业提供标准的数据采集、标注服务。累计执行400多个项目案例，采集人数达到5万人次

点赞

收藏

分享

举报