有哪些适合练手的爬虫小项目？-技术圈

有哪些适合练手的爬虫小项目？

Python与算法社区

共 1484字，需浏览 3分钟

2020-10-30 05:04

点击上方蓝色字体，星标公众号

我们正在发起一场公益活动：

无私帮助大家解决难题，真正解决的那种！

问答起飞

如果你平时遇到任何困扰你已久的问题，可以加群，告诉我们，统一记录到《QA》表中。

我们解决不了的，会在公众号内发起求助，总之，尽最大努力帮助你解决问题，真正解决的那种！

第四弹问题

爬虫有哪些练手的小项目吗？各位大佬，最好质量较好一点的啊。

爬虫案例

这里先为大家推荐一个爬取豆瓣书籍的爬虫吧，方便大家搜罗各种美书！

包含评价人数、评分、被链接数、链入的图书节点、链出的图书节点等信息。

另外给出爬虫的全部代码，实现的功能包括：

实现功能：

1 可以爬下豆瓣读书标签下的所有图书
2 按评分排名依次存储
3 存储到Excel中，可方便大家筛选搜罗，比如筛选评价人数>1000的高分书籍；可依据不同的主题存储到Excel不同的Sheet
4 采用User Agent伪装为浏览器进行爬取，并加入随机延时来更好的模仿浏览器行为，避免爬虫被封

使用的包：

#-*- coding: UTF-8 -*-

import sys
import time
import urllib
import urllib2
import requests
import numpy as np
from bs4 import BeautifulSoup
from openpyxl import Workbook

reload(sys)
sys.setdefaultencoding('utf8')

中间代码稍长，不贴到这里了，下面是测试代码：

if __name__=='__main__':
    #book_tag_lists = ['心理','判断与决策','算法','数据结构','经济','历史']
    #book_tag_lists = ['传记','哲学','编程','创业','理财','社会学','佛教']
    #book_tag_lists = ['思想','科技','科学','web','股票','爱情','两性']
    #book_tag_lists = ['计算机','机器学习','linux','android','数据库','互联网']
    #book_tag_lists = ['数学']
    #book_tag_lists = ['摄影','设计','音乐','旅行','教育','成长','情感','育儿','健康','养生']
    #book_tag_lists = ['商业','理财','管理']  
    #book_tag_lists = ['名著']
    #book_tag_lists = ['科普','经典','生活','心灵','文学']
    #book_tag_lists = ['科幻','思维','金融']
    book_tag_lists = ['个人管理','时间管理','投资','文化','宗教']
    book_lists=do_spider(book_tag_lists)
    print_book_lists_excel(book_lists,book_tag_lists)

其他20多个小项目的部分截图：

这20几个小项目已经制作成pdf，感兴趣的关注管理员的微信，资料比较珍贵，单独发：