WebCrawler网站数据采集工具
WebCrawler 是一个网站数据采集工具,使用 scrapy 框架。
环境准备
- [Scrapy] (http://scrapy.org/)
- [MongoDB] (https://www.mongodb.org/)
已实现的功能
- 爬取网站发贴信息(标题、标题URL、作者、作者URL等),以及下载图片到本地
- 爬取用户地理位置信息
- 增加 RandomUserAgent 功能,防止被 BAN
- 增加延时抓取功能,防止被 BAN
- 采用hash方法分散到多个目录进行管理,提高打开文件夹速度
快速开始
#: 安装必要 python 库 sudo pip install scrapy sudo pip install pymongo #: 下载数据到本地,并且保存相关信息到MongoDB中. scrapy crawl collector #: 建立本地http server,查看爬取数据 python -m SimpleHTTPServer 80 #: 打开浏览器输入http://localhost/data
评论
NETSpider网站数据采集软件
NETSpider网站数据采集软件是一款基于.Net平台的开源软件。软件部分功能是基本Soukey软件进行开发的.这个版本采用VS2010+.NET3.5进行开发的.NETSpider采摘当前提供的主
NETSpider网站数据采集软件
0
livetv_mining直播网站数据采集
关于项目介绍项目实现爬虫、数据挖掘/分析等功能。目前主要是扫描直播站点收集数据,后续会开发相关数据分析模块。架构采用前后端分离,通过RESTFulAPI通信。前端Vue+Webpack,后端Flask
livetv_mining直播网站数据采集
0
TCPDUMP网络数据采集分析工具
网络数据采集分析工具TcpDump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤,并提供and、or、not等逻辑语句来帮助你去掉无用的信息。tc
TCPDUMP网络数据采集分析工具
0
Hawk_Crawler数据采集和清洗工具
HAWK是一种数据采集和清洗工具,依据GPL协议开源,能够灵活,有效地采集来自网页,数据库,文件,并通过可视化地拖拽,快速地进行生成,过滤,转换等操作。其功能最适合的领域,是爬虫和数据清洗。Hawk的
Hawk_Crawler数据采集和清洗工具
0