有哪些适合练手的爬虫小项目?
Python与算法社区
共 1484字,需浏览 3分钟
·
2020-10-30 05:04
点击上方蓝色字体,星标公众号
我们正在发起一场公益活动:
无私帮助大家解决难题,真正解决的那种!
问答起飞
如果你平时遇到任何困扰你已久的问题,可以加群,告诉我们,统一记录到《QA》表中。
我们解决不了的,会在公众号内发起求助,总之,尽最大努力帮助你解决问题,真正解决的那种!
第四弹问题
爬虫有哪些练手的小项目吗?各位大佬,最好质量较好一点的啊。
爬虫案例
这里先为大家推荐一个爬取豆瓣书籍的爬虫吧,方便大家搜罗各种美书!
包含评价人数、评分、被链接数、链入的图书节点、链出的图书节点等信息。
另外给出爬虫的全部代码,实现的功能包括:
实现功能:
1 可以爬下豆瓣读书标签下的所有图书
2 按评分排名依次存储
3 存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet
4 采用
User Agent
伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封
使用的包:
#-*- coding: UTF-8 -*-
import sys
import time
import urllib
import urllib2
import requests
import numpy as np
from bs4 import BeautifulSoup
from openpyxl import Workbook
reload(sys)
sys.setdefaultencoding('utf8')
中间代码稍长,不贴到这里了,下面是测试代码:
if __name__=='__main__':
#book_tag_lists = ['心理','判断与决策','算法','数据结构','经济','历史']
#book_tag_lists = ['传记','哲学','编程','创业','理财','社会学','佛教']
#book_tag_lists = ['思想','科技','科学','web','股票','爱情','两性']
#book_tag_lists = ['计算机','机器学习','linux','android','数据库','互联网']
#book_tag_lists = ['数学']
#book_tag_lists = ['摄影','设计','音乐','旅行','教育','成长','情感','育儿','健康','养生']
#book_tag_lists = ['商业','理财','管理']
#book_tag_lists = ['名著']
#book_tag_lists = ['科普','经典','生活','心灵','文学']
#book_tag_lists = ['科幻','思维','金融']
book_tag_lists = ['个人管理','时间管理','投资','文化','宗教']
book_lists=do_spider(book_tag_lists)
print_book_lists_excel(book_lists,book_tag_lists)
其他20多个小项目的部分截图:
这20几个小项目已经制作成pdf,感兴趣的关注管理员的微信,资料比较珍贵,单独发:
评论