videoSpider分布式视频信息爬虫

联合创作 · 2023-09-27 23:23

分布式视频信息爬虫,从豆瓣,bilibili等收集电视剧、电影、动漫、演员等信息,
使用:requests 发送请求,BeatufulSoup解析html,SQLAlchemy 作为ORM,Alembic数据库版本控制。 


使用:协程(gevent)+多进程,分布式(Celery)


安装


首先因为选择使用使用lxml解析html,安装lxml库前需要安装相关c库



sudo apt-get install libxml2-dev libxslt-dev python-dev
sudo apt-get build-dep python3-lxml

注意用python3



virtualenv tv -p python3
. tv/bin/activate
git clone https://github.com/billvsme/videoSpider
cd videoSpider
pip install -r requirements.txt

用法


注意使用python3首先,设置配置config.ini



cp config/config_dev.ini config/config.ini
vim config/config.ini

config_dev.ini默认配置,可以运行,最好自己修改一下(例如celery的后端)。



[database]
database_url = sqlite:///tv.db #数据库
test = false #是否输出SQLAlchemy 信息
[photo]
path = ./photo #下载图片存放等位置
[qiniu] #七牛的配置
access_key = xxxx
secret_key = xxxx
bucket_name = xxxx
[celery] #celery 配置
backend = db+sqlite:///celery_backend.sqlite
broker = sqla+sqlite:///celery_borker.sqlite

然后生成数据库



alembic upgrade head

然后运行Celery



celery -A tasks worker --loglevel=info

抓取电影,电视剧,动漫信息(视频)



python start.py video

抓取演员信息



python start.py celebrity

下载电影,电视剧,动漫,演员的图片到本地(大概需要10个小时,40G)



python start.py down-image

发布图片到七牛



python start.py upload-image

创建Whoosh索引



python start.py whoosh

浏览 20
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑 分享
举报