【程序源代码】微信爬虫
正文 | 内容
01
—
【介绍】
一个爬虫代码。主要用于对公众号进行获取数据使用的。使用的python进行开发的。内容比较简单。可以简单试用下。
02
—
【技术框架】
1、python环境, 检查python的版本,是否为2.7.x,如果不是,安装2.7.6。
2、安装依赖包, clone代码 安装Mysql-python依赖
yum install python-devel mysql-devel gcc
安装lxml依赖
yum install libxslt-devel libxml2-devel
安装浏览器环境 selenium依赖.(如果是mac环境,仅需安装firefox, 但确保版本是 firefox 36.0,使用最新的版本会报错)
yum install xorg-x11-server-Xvfb
yum upgrade glib2 # 确保glib2版本大于2.42.2,否则firefox启动会报错
yum install firefox # centos下安装最新的firefox版本
clone代码,安装依赖python库
$ git clone https://github.com/bowenpay/wechat-spider.git
$ cd wechat-spider
$ pip install -r requirements.txt
3、创建mysql数据库
创建数据库wechatspider,默认采用utf8编码。(如果系统支持,可以采用utf8mb4,以兼容emoji字符)
mysql> CREATE DATABASE `wechatspider` CHARACTER SET utf8;
4、安装和运行Redis
$ wget http://download.redis.io/releases/redis-2.8.3.tar.gz
$ tar xzvf redis-2.8.3.tar.gz
$ cd redis-2.8.3
$ make
$ make install
$ redis-server
5、更新配置文件local_settings
在 wechatspider 目录下,添加 local_settings.py 文件,配置如下:
6、初始化表
$ python manage.py migrate
7、启动网站
python manage.py runserver 0.0.0.0:8001
访问 http://localhost:8001/。
创建超级管理员账号,访问后台,并配置要爬取的公众号和关键字
python manage.py createsuperuser
8)启动爬虫
$ python bin/scheduler.py
$ python bin/downloader.py
$ python bin/extractor.py
$ python bin/processor.py
03
—
【源码获取方式】
https://github.com/bowenpay/wechat-spider.git
联
方
式
公众号ID: itcode
微信ID: itcoder
免
声
明
—————————————
———————————————
【你的每一份打赏就是对我最真诚的鼓励】
评论