WebCrawler网站数据采集工具
WebCrawler 是一个网站数据采集工具,使用 scrapy 框架。
环境准备
- [Scrapy] (http://scrapy.org/)
- [MongoDB] (https://www.mongodb.org/)
已实现的功能
- 爬取网站发贴信息(标题、标题URL、作者、作者URL等),以及下载图片到本地
- 爬取用户地理位置信息
- 增加 RandomUserAgent 功能,防止被 BAN
- 增加延时抓取功能,防止被 BAN
- 采用hash方法分散到多个目录进行管理,提高打开文件夹速度
快速开始
#: 安装必要 python 库
sudo pip install scrapy
sudo pip install pymongo
#: 下载数据到本地,并且保存相关信息到MongoDB中.
scrapy crawl collector
#: 建立本地http server,查看爬取数据
python -m SimpleHTTPServer 80
#: 打开浏览器输入http://localhost/data
评论
