【程序源代码】微信爬虫-技术圈

关键字：爬虫

正文 | 内容

—

【介绍】

一个爬虫代码。主要用于对公众号进行获取数据使用的。使用的python进行开发的。内容比较简单。可以简单试用下。

—

【技术框架】

1、python环境, 检查python的版本，是否为2.7.x，如果不是，安装2.7.6。

2、安装依赖包, clone代码安装Mysql-python依赖

yum install python-devel mysql-devel gcc

安装lxml依赖

yum install libxslt-devel libxml2-devel

安装浏览器环境 selenium依赖.(如果是mac环境，仅需安装firefox，但确保版本是 firefox 36.0，使用最新的版本会报错)

yum install xorg-x11-server-Xvfb
yum upgrade glib2 # 确保glib2版本大于2.42.2，否则firefox启动会报错 
yum install firefox # centos下安装最新的firefox版本

clone代码,安装依赖python库

$ git clone https://github.com/bowenpay/wechat-spider.git
$ cd wechat-spider
$ pip install -r requirements.txt

3、创建mysql数据库

创建数据库wechatspider，默认采用utf8编码。（如果系统支持，可以采用utf8mb4，以兼容emoji字符）

mysql> CREATE DATABASE `wechatspider` CHARACTER SET utf8;

4、安装和运行Redis

$ wget http://download.redis.io/releases/redis-2.8.3.tar.gz
$ tar xzvf redis-2.8.3.tar.gz
$ cd redis-2.8.3
$ make
$ make install
$ redis-server

5、更新配置文件local_settings

在 wechatspider 目录下,添加 local_settings.py 文件,配置如下:

6、初始化表

$ python manage.py migrate

7、启动网站

python manage.py runserver 0.0.0.0:8001

访问 http://localhost:8001/。

创建超级管理员账号,访问后台，并配置要爬取的公众号和关键字

python manage.py createsuperuser

8）启动爬虫

$ python bin/scheduler.py
$ python bin/downloader.py
$ python bin/extractor.py
$ python bin/processor.py

—

【源码获取方式】

https://github.com/bowenpay/wechat-spider.git

联

系

方

式

公众号ID: itcode

微信ID: itcoder

免

责

声

明

【写作说明】以上文章属于此公众号原创所有，如需转载请注明出处。【免责申明】本公众号不是广告商，也没有为其他三方网站或者个人做广告宣传。文章发布源代码和文章均来源于各类开源网站社区或者是小编在项目中、学习中整理的一些实例项目。主要目的是将开源代码分享给喜欢编程、有梦想的程序员，希望能帮助到你们与他们共同成长。其中用户产生的一些自愿下载或者付费行为，原则与平台没有直接关系。如果涉及开源程序侵犯到原作者相关权益，可联系小编进行相关处理。

【投稿邮箱】315997972@qq.com

—————————————

目前已有1000000+优秀的程序员加入我们