有哪些适合练手的爬虫小项目?

共 1484字,需浏览 3分钟

 ·

2020-10-30 05:04

点击上方蓝色字体,星标公众号

我们正在发起一场公益活动:

无私帮助大家解决难题,真正解决的那种!

问答起飞

如果你平时遇到任何困扰你已久的问题,可以加群,告诉我们,统一记录到《QA》表中。

我们解决不了的,会在公众号内发起求助,总之,尽最大努力帮助你解决问题,真正解决的那种!

第四弹问题

爬虫有哪些练手的小项目吗?各位大佬,最好质量较好一点的啊。

爬虫案例

这里先为大家推荐一个爬取豆瓣书籍的爬虫吧,方便大家搜罗各种美书!

包含评价人数、评分、被链接数、链入的图书节点、链出的图书节点等信息。

另外给出爬虫的全部代码,实现的功能包括:

实现功能:

  • 1 可以爬下豆瓣读书标签下的所有图书

  • 2 按评分排名依次存储

  • 3 存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet

  • 4 采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封

使用的包:

#-*- coding: UTF-8 -*-

import sys
import time
import urllib
import urllib2
import requests
import numpy as np
from bs4 import BeautifulSoup
from openpyxl import Workbook

reload(sys)
sys.setdefaultencoding('utf8')

中间代码稍长,不贴到这里了,下面是测试代码:

if __name__=='__main__':
    #book_tag_lists = ['心理','判断与决策','算法','数据结构','经济','历史']
    #book_tag_lists = ['传记','哲学','编程','创业','理财','社会学','佛教']
    #book_tag_lists = ['思想','科技','科学','web','股票','爱情','两性']
    #book_tag_lists = ['计算机','机器学习','linux','android','数据库','互联网']
    #book_tag_lists = ['数学']
    #book_tag_lists = ['摄影','设计','音乐','旅行','教育','成长','情感','育儿','健康','养生']
    #book_tag_lists = ['商业','理财','管理']  
    #book_tag_lists = ['名著']
    #book_tag_lists = ['科普','经典','生活','心灵','文学']
    #book_tag_lists = ['科幻','思维','金融']
    book_tag_lists = ['个人管理','时间管理','投资','文化','宗教']
    book_lists=do_spider(book_tag_lists)
    print_book_lists_excel(book_lists,book_tag_lists)
    

其他20多个小项目的部分截图:

这20几个小项目已经制作成pdf,感兴趣的关注管理员的微信,资料比较珍贵,单独发:

浏览 18
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报