您有一份拉勾教育专栏资料请查收
您有一份拉勾教育专栏资料请查收
❝这是广告吗?不,这是福利,获取拉勾专栏的“秘籍”,亲测有效!
❞
使用方式
一键订阅:运行 crawl_list.py
订阅并记录需要下载的专栏 id 到downloads.txt
文件中全量爬取:运行 crawl_content.py
中spider.crawl_all()
方法增量爬取:运行 crawl_content.py
中spider.cral_increase()
方法转换为 pdf:运行 htmltopdf.py
项目说明
第一次运行使用全量爬取,后续如果拉勾更新,项目会记录未下载和未更新完的专栏。 增量更新为未更新专栏的更新功能 增量更新时需要观看日志,并修改转换pdf文件夹, pdf_paths = []
根据日志中更新的id,通过查看https://kaiwu.lagou.com/course/courseInfo.htm?courseId=#{id}
修改更新 id 到需要更新的文件夹中wkhtmltopdf 下载链接:https://wkhtmltopdf.org/downloads.html
项目完成度
[x] 爬取拉勾课程 [x] 生成pdf [x] 一键获取所有vip专栏订阅 [x] 一键下载所有专栏 [x] 多线程爬取专栏 [x] 全量爬取专栏 [x] 增量爬取专栏 [x] 更新未更新完得专栏并记录由未更新完变为更新完的专栏
项目运行示例
微信公众号
评论