WebCrawler网站数据采集工具
WebCrawler 是一个网站数据采集工具,使用 scrapy 框架。
环境准备
- [Scrapy] (http://scrapy.org/)
- [MongoDB] (https://www.mongodb.org/)
已实现的功能
- 爬取网站发贴信息(标题、标题URL、作者、作者URL等),以及下载图片到本地
- 爬取用户地理位置信息
- 增加 RandomUserAgent 功能,防止被 BAN
- 增加延时抓取功能,防止被 BAN
- 采用hash方法分散到多个目录进行管理,提高打开文件夹速度
快速开始
#: 安装必要 python 库 sudo pip install scrapy sudo pip install pymongo #: 下载数据到本地,并且保存相关信息到MongoDB中. scrapy crawl collector #: 建立本地http server,查看爬取数据 python -m SimpleHTTPServer 80 #: 打开浏览器输入http://localhost/data
评论