您有一份拉勾教育专栏资料请查收

胡琦

共 720字,需浏览 2分钟

 · 2021-07-07


您有一份拉勾教育专栏资料请查收

这是广告吗?不,这是福利,获取拉勾专栏的“秘籍”,亲测有效!

使用方式

  1. 一键订阅:运行crawl_list.py 订阅并记录需要下载的专栏 id 到downloads.txt 文件中
  2. 全量爬取:运行crawl_content.pyspider.crawl_all() 方法
  3. 增量爬取:运行crawl_content.pyspider.cral_increase()方法
  4. 转换为 pdf:运行htmltopdf.py

项目说明

  1. 第一次运行使用全量爬取,后续如果拉勾更新,项目会记录未下载和未更新完的专栏。
  2. 增量更新为未更新专栏的更新功能
  3. 增量更新时需要观看日志,并修改转换pdf文件夹,pdf_paths = []根据日志中更新的id,通过查看https://kaiwu.lagou.com/course/courseInfo.htm?courseId=#{id} 修改更新 id 到需要更新的文件夹中
  4. wkhtmltopdf 下载链接:https://wkhtmltopdf.org/downloads.html

项目完成度

  • [x] 爬取拉勾课程
  • [x] 生成pdf
  • [x] 一键获取所有vip专栏订阅
  • [x] 一键下载所有专栏
  • [x] 多线程爬取专栏
  • [x] 全量爬取专栏
  • [x] 增量爬取专栏
  • [x] 更新未更新完得专栏并记录由未更新完变为更新完的专栏

项目运行示例



微信公众号

扫码关注


浏览 42
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报